加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • HBM:韓國人的游戲
    • CoWoS:臺積電的寶刀
    • 不存在的Plan B
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

誰卡了英偉達(dá)的脖子?

2023/08/30
1849
閱讀需 16 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:何律衡? 編輯:李墨天

英偉達(dá)最新季度財報公布后,不僅AMD沉默英特爾流淚,做過長時間心理建設(shè)的分析師也沒想到真實(shí)情況如此超預(yù)期。

更可怕的是,英偉達(dá)同比暴漲854%的收入,很大程度上是因為“只能賣這么多”,而不是“賣出去了這么多”。一大堆“初創(chuàng)公司拿H100抵押貸款”的小作文背后,反應(yīng)的是H100 GPU供應(yīng)緊張的事實(shí)。

如果缺貨繼續(xù)延續(xù)到今年年底,英偉達(dá)的業(yè)績恐怕會更加震撼。

H100的短缺不禁讓人想起幾年前,GPU因為加密貨幣暴漲導(dǎo)致缺貨,英偉達(dá)被游戲玩家罵得狗血淋頭。不過當(dāng)年的顯卡缺貨很大程度上是因為不合理的溢價,H100的缺貨卻是產(chǎn)能實(shí)在有限,加價也買不到。

換句話說,英偉達(dá)還是賺少了。

在財報發(fā)布當(dāng)天的電話會議上,“產(chǎn)能”理所當(dāng)然地成為了最高頻詞匯。對此,英偉達(dá)措辭嚴(yán)謹(jǐn),不該背的鍋堅決不背:“市場份額方面,不是僅靠我們就可以獲得的,這需要跨越許多不同的供應(yīng)商?!?/p>

實(shí)際上,英偉達(dá)所說的“許多不同的供應(yīng)商”,算來算去也就兩家:SK海力士臺積電。

HBM:韓國人的游戲

如果只看面積占比,一顆H100芯片,屬于英偉達(dá)的部分只有50%左右。

在芯片剖面圖中,H100裸片占據(jù)核心位置,兩邊各有三個HBM堆棧,加起面積與H100裸片相當(dāng)。

這六顆平平無奇的內(nèi)存芯片,就是H100供應(yīng)短缺的罪魁禍?zhǔn)字弧?/strong>

HBM(High Bandwidth Memory)直譯過來叫高寬帶內(nèi)存,在GPU中承擔(dān)一部分存儲器之職。

和傳統(tǒng)的DDR內(nèi)存不同,HBM本質(zhì)上是將多個DRAM內(nèi)存在垂直方向堆疊,這樣既增加了內(nèi)存容量,又能很好的控制內(nèi)存的功耗和芯片面積,減少在封裝內(nèi)部占用的空間。

“堆疊式內(nèi)存”原本瞄準(zhǔn)的是對芯片面積和發(fā)熱非常敏感的智能手機(jī)市場,但問題是,由于生產(chǎn)成本太高,智能手機(jī)最終選擇了性價比更高的LPDDR路線,導(dǎo)致堆疊式內(nèi)存空有技術(shù)儲備,卻找不到落地場景。

直到2015年,市場份額節(jié)節(jié)敗退的AMD希望借助4K游戲的普及,抄一波英偉達(dá)的后路。

在當(dāng)年發(fā)布的AMD Fiji系列GPU中,AMD采用了與SK海力士聯(lián)合研發(fā)的堆疊式內(nèi)存,并將其命名為HBM(High Bandwidth Memory)。

AMD的設(shè)想是,4K游戲需要更大的數(shù)據(jù)吞吐效率,HBM內(nèi)存高帶寬的優(yōu)勢就能體現(xiàn)出來。當(dāng)時AMD的Radeon R9 Fury X顯卡,也的確在紙面性能上壓了英偉達(dá)Kepler架構(gòu)新品一頭。

但問題是,HBM帶來的帶寬提升,顯然難以抵消其本身的高成本,因此也未得到普及。

直到2016年,AlphaGo橫掃冠軍棋手李世石,深度學(xué)習(xí)橫空出世,讓HBM內(nèi)存一下有了用武之地。

深度學(xué)習(xí)的核心在于通過海量數(shù)據(jù)訓(xùn)練模型,確定函數(shù)中的參數(shù),在決策中帶入實(shí)際數(shù)據(jù)得到最終的解。

理論上來說,數(shù)據(jù)量越大得到的函數(shù)參數(shù)越可靠,這就讓AI訓(xùn)練對數(shù)據(jù)吞吐量及數(shù)據(jù)傳輸的延遲性有了一種近乎病態(tài)的追求,而這恰恰是HBM內(nèi)存解決的問題。

2017年,AlphaGo再戰(zhàn)柯潔,芯片換成了Google自家研發(fā)的TPU。在芯片設(shè)計上,從第二代開始的每一代TPU,都采用了HBM的設(shè)計。英偉達(dá)針對數(shù)據(jù)中心和深度學(xué)習(xí)的新款GPU Tesla P100,搭載了第二代HBM內(nèi)存(HBM2)。

隨著高性能計算市場的GPU芯片幾乎都配備了HBM內(nèi)存,存儲巨頭們圍繞HBM的競爭也迅速展開。

目前,全球能夠量產(chǎn)HBM的僅有存儲器三大巨頭:SK海力士、三星電子、美光。

SK海力士是HBM發(fā)明者之一,是目前唯一量產(chǎn)HBM3E(第三代HBM)的廠商;三星電子以HBM2(第二代HBM)入局,是英偉達(dá)首款采用HBM的GPU的供應(yīng)商;美光最落后,2018年才從HMC轉(zhuǎn)向HBM路線,2020年年中才開始量產(chǎn)HBM2。

其中,SK海力士獨(dú)占HBM 50%市場份額,而其獨(dú)家供應(yīng)給英偉達(dá)的HBM3E,更是牢牢卡住了H100的出貨量:

H100 PCIe和SXM版本均用了5個HBM堆棧,H100S SXM版本可達(dá)到6個,英偉達(dá)力推的H100 NVL版本更是達(dá)到了12個。按照研究機(jī)構(gòu)的拆解,單顆16GB的HBM堆棧,成本就高達(dá)240美元。那么H100 NVL單單內(nèi)存芯片的成本,就將近3000美元。

成本還是小問題,考慮到與H100直接競爭的谷歌TPU v5和AMD MI300即將量產(chǎn),后兩者同樣將采用HBM3E,陳能更加捉襟見肘。

面對激增的需求,據(jù)說SK海力士已定下產(chǎn)能翻番的小目標(biāo),著手?jǐn)U建產(chǎn)線,三星和美光也對HBM3E摩拳擦掌,但在半導(dǎo)體產(chǎn)業(yè),擴(kuò)建產(chǎn)線從來不是一蹴而就的。

按照9-12個月的周期樂觀預(yù)計,HBM3E產(chǎn)能至少也得到明年第二季度才能得到補(bǔ)充。

另外,就算解決了HBM的產(chǎn)能,H100能供應(yīng)多少,還得看臺積電的臉色。

CoWoS:臺積電的寶刀

分析師Robert Castellano不久前做了一個測算,H100采用了臺積電4N工藝(5nm)生產(chǎn),一片4N工藝的12寸晶圓價格為13400美元,理論上可以切割86顆H100芯片。

如果不考慮生產(chǎn)良率,那么每生產(chǎn)一顆H100,臺積電就能獲得155美元的收入[6]。

但實(shí)際上,每顆H100給臺積電帶來的收入很可能超過1000美元,原因就在于H100采用了臺積電的CoWoS封裝技術(shù),通過封裝帶來的收入高達(dá)723美元[6]。

每一顆H100從臺積電十八廠的N4/N5產(chǎn)線上下來,都會運(yùn)往同在園區(qū)內(nèi)的臺積電先進(jìn)封測二廠,完成H100制造中最為特別、也至關(guān)重要的一步——CoWoS

要理解CoWoS封裝的重要性,依然要從H100的芯片設(shè)計講起。

在消費(fèi)級GPU產(chǎn)品中,內(nèi)存芯片一般都封裝在GPU核心的外圍,通過PCB板之間的電路傳遞信號。

比如下圖中同屬英偉達(dá)出品的RTX4090芯片,GPU核心和GDDR內(nèi)存都是分開封裝再拼到一塊PCB板上,彼此獨(dú)立。

GPU和CPU都遵循著馮·諾依曼架構(gòu),其核心在于“存算分離”——即芯片處理數(shù)據(jù)時,需要從外部的內(nèi)存中調(diào)取數(shù)據(jù),計算完成后再傳輸?shù)絻?nèi)存中,一來一回,都會造成計算的延遲。同時,數(shù)據(jù)傳輸?shù)摹皵?shù)量”也會因此受限制。

可以將GPU和內(nèi)存的關(guān)系比作上海的浦東和浦西,兩地間的物資(數(shù)據(jù))運(yùn)輸需要依賴南浦大橋,南浦大橋的運(yùn)載量決定了物資運(yùn)輸?shù)男剩@個運(yùn)載量就是內(nèi)存帶寬,它決定了數(shù)據(jù)傳輸?shù)乃俣?,也間接影響著GPU的計算速度。

1980年到2000年,GPU和內(nèi)存的“速度失配”以每年50%的速率增加。也就是說,就算修了龍耀路隧道和上中路隧道,也無法滿足浦東浦西兩地物資運(yùn)輸?shù)脑鲩L,這就導(dǎo)致高性能計算場景下,帶寬成為了越來越明顯的瓶頸。

CPU/GPU性能與內(nèi)存性能之間的差距正在拉大

2015年,AMD在應(yīng)用HBM內(nèi)存的同時,也針對數(shù)據(jù)傳輸采用了一種創(chuàng)新的解決方案:把浦東和浦西拼起來。

簡單來說,2015年的Fiji架構(gòu)顯卡,將HBM內(nèi)存和GPU核心“縫合”在了一起,把幾塊小芯片變成了一整塊大芯片。這樣,數(shù)據(jù)吞吐效率就成倍提高。

不過如上文所述,由于成本和技術(shù)問題,AMD的Fiji架構(gòu)并沒有讓市場買賬。但深度學(xué)習(xí)的爆發(fā)以及AI訓(xùn)練對數(shù)據(jù)吞吐效率不計成本的追求,讓“芯片縫合”有了用武之地。

另外,AMD的思路固然好,但也帶來了一個新問題——無論HBM有多少優(yōu)勢,它都必須和“縫芯片”的先進(jìn)封裝技術(shù)配合,兩者唇齒相依。

如果說HBM內(nèi)存還能貨比三家,那么“縫芯片”所用的先進(jìn)封裝,看來看去就只有臺積電一家能做。

CoWoS是臺積電先進(jìn)封裝事業(yè)的起點(diǎn),英偉達(dá)則是第一個采用這一技術(shù)的芯片公司

CoWoS由CoW和oS組合而來:CoW表示Chip on Wafer,指裸片在晶圓上被拼裝的過程,oS表示on?Substrate,指在基板上被封裝的過程。

傳統(tǒng)封裝一般只有oS環(huán)節(jié),一般在代工廠完成晶圓制造后,交給第三方封測廠解決,但先進(jìn)封裝增加的CoW環(huán)節(jié),就不是封測廠能解決的了的。

以一顆完整的H100芯片為例,H100的裸片周圍分布了多個HBM堆棧,通過CoW技術(shù)拼接在一起。但不只是拼接而已,還要同時實(shí)現(xiàn)裸片和堆棧間的通信

臺積電的CoW區(qū)別于其他先進(jìn)封裝的亮點(diǎn)在于,是將裸片和堆棧放在一個硅中介層(本質(zhì)是一塊晶圓)上,在中介層中做互聯(lián)通道,實(shí)現(xiàn)裸片和堆棧的通信。

類似的還有英特爾的EMIB,區(qū)別在于通過硅橋?qū)崿F(xiàn)互聯(lián)。但帶寬遠(yuǎn)不及硅中介層,考慮到帶寬與數(shù)據(jù)傳輸速率息息相關(guān),CoWoS便成了H100的唯一選擇。

這便是卡住H100產(chǎn)能的另一只手。

雖然CoWoS效果逆天,但4000-6000美元/片的天價還是攔住了不少人,其中就包括富可敵國的蘋果。因此,臺積電預(yù)備的產(chǎn)能相當(dāng)有限。

然而,AI浪潮突然爆發(fā),供需平衡瞬間被打破。

早在6月就有傳言稱,今年英偉達(dá)對CoWoS的需求已經(jīng)達(dá)到4.5萬片晶圓,而臺積電年初的預(yù)估是3萬片,再加上其他客戶的需求,產(chǎn)能缺口超過了20%。

為了彌補(bǔ)缺口,臺積電的陣仗不可謂不大。

6月,臺積電正式啟用同在南科的先進(jìn)封測六廠,光無塵室就比其余封測廠的加起來還大,并承諾逐季增加CoWoS產(chǎn)能,為此將部分oS外包給第三方封測廠。

但正如HBM擴(kuò)產(chǎn)不易,臺積電擴(kuò)產(chǎn)也需要時間。目前,部分封裝設(shè)備、零組件交期在3-6個月不等,到年底前,新產(chǎn)能能開出多少仍是未知。

不存在的Plan B

面對H100的結(jié)構(gòu)性緊缺,英偉達(dá)也不是完全沒有Plan B。

在財報發(fā)布后的電話會議上,英偉達(dá)就透露,CoWoS產(chǎn)能已經(jīng)有其他供應(yīng)商參與認(rèn)證。雖然沒說具體是誰,但考慮到先進(jìn)封裝的技術(shù)門檻,除了臺積電,也就只有英特爾先天不足的EMIB、三星開發(fā)了很久一直等不來客戶的I-Cube能勉強(qiáng)救火。

但核心技術(shù)更換如同陣前換將,隨著AMD MI300即將量產(chǎn)出貨,AI芯片競爭白熱化,是否能和英特爾和三星的技術(shù)磨合到位,恐怕黃仁勛自己心理也是惴惴。

比黃仁勛更著急的可能是買不到H100的云服務(wù)廠商與AI初創(chuàng)公司。畢竟游戲玩家搶不到顯卡,也就是游戲幀數(shù)少了20幀;大公司搶不到H100,很可能就丟掉了幾十億的收入和上百億的估值。

需要H100的公司主要有三類:微軟、亞馬遜這類云服務(wù)商;Anthropic、OpenAI這些初創(chuàng)公司;以及特斯拉這類大型科技公司,特斯拉的新版本FSD方案就用了10000塊H100組成的GPU集群來訓(xùn)練

這還沒算上Citadel這類金融公司,以及買不到特供版H800的中國公司。

根據(jù)GPU?Utils的測算[7],保守估計,目前H100的供給缺口達(dá)到43萬張。

雖然H100存在理論上的替代方案,但在實(shí)際情況下都缺乏可行性。

比如H100的前代產(chǎn)品A100,價格只有H100的1/3左右。但問題是,H100的性能比A100強(qiáng)了太多,導(dǎo)致H100單位成本的算力比A100高??紤]到科技公司都是成百上千張起購,買A100反而更虧。

AMD是另一個替代方案,而且紙面性能和H100相差無幾。但由于英偉達(dá)CUDA生態(tài)的壁壘,采用AMD的GPU很可能讓開發(fā)周期變得更長,而采用H100的競爭對手很可能就因為這點(diǎn)時間差,和自己拉開了差距,甚至上億美元的投資血本無歸。

種種原因?qū)е?,一顆整體物料成本3000美元的芯片,英偉達(dá)直接加個零賣,大家居然都搶著買。這可能是黃仁勛自己也沒想到的。

而在HBM與CoWoS產(chǎn)能改善之前,買到H100的方法可能就只剩下了一種:

等那些靠吹牛逼融到錢買了一堆H100的初創(chuàng)公司破產(chǎn),然后接盤他們的二手GPU。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA32A4U-MH 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44VQFN
$3.4 查看
ATXMEGA128A1U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP100, TQFP-100
$73.57 查看
ATSAMA5D31A-CU 1 Atmel Corporation RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324

ECAD模型

下載ECAD模型
$22.61 查看
英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

飯統(tǒng)戴老板小伙伴們的科技后花園,用投資視角,扒巨頭秘史,沒有客氣,只有硬核!