馬克思曾在《資本論》中闡述資本主義:“如果有10%的利潤(rùn),資本就會(huì)保證到處被使用;有20%的利潤(rùn),資本就能活躍起來(lái);有50%的利潤(rùn),資本就會(huì)鋌而走險(xiǎn);為了100%的利潤(rùn),資本就敢踐踏一切人間法律。有300%以上的利潤(rùn),資本就敢犯任何罪行,甚至去冒絞首的危險(xiǎn)?!?/p>
以那個(gè)時(shí)代的經(jīng)濟(jì)環(huán)境來(lái)看,馬克思認(rèn)為資本家的獲利上限大概就是3倍利潤(rùn)。不過(guò)如今經(jīng)濟(jì)全球化疊加地緣政治沖突的情況下,3倍利潤(rùn)似乎已難以形容一家企業(yè)發(fā)展的勢(shì)頭。
8月16日,《巴倫周刊》資深撰稿人Tae Kim最近在社交媒體上發(fā)布的帖子估計(jì),英偉達(dá)每銷(xiāo)售一塊H100 GPU就能獲得高達(dá)1000%的利潤(rùn)。投資銀行公司Raymond James表示:“H100 GPU的起價(jià)為3320美元,該公司(英偉達(dá))以25000至30000美元的價(jià)格出售這些GPU。盡管我們沒(méi)有獲得AI GPU的BoM表單,但我們當(dāng)然相信這只是一個(gè)粗略的估計(jì),NVIDIA可能會(huì)賺得更多?!?/p>
圖源:profesional review
多個(gè)平臺(tái)分析師認(rèn)為,H100的售價(jià)遠(yuǎn)高于其實(shí)際價(jià)格,1000%的估算可能還沒(méi)有考慮到通貨膨脹的因素,實(shí)際數(shù)字可能還要高得多。
事實(shí)上,英偉達(dá)的GPU并不是第一次暴漲。過(guò)去幾年,尤其是2016年-2021年之間,“加密貨幣”的興起為GPU行業(yè)注入了源源不斷的熱錢(qián)。盡管2022年末“挖礦”退潮,英偉達(dá)曾一度面對(duì)銷(xiāo)量危機(jī),但緊隨而來(lái)的AI又讓英偉達(dá)快速恢復(fù)元?dú)狻?/p>
如今英偉達(dá)又一次站在風(fēng)口之上,只不過(guò)這一次它的利潤(rùn)率似乎有些恐怖了。10倍利潤(rùn)的背后,是誰(shuí)撐起了GPU價(jià)格?
誰(shuí)在搶購(gòu)H100?
在智能時(shí)代,數(shù)據(jù)、算力與算法被稱(chēng)為基礎(chǔ)三要素,其中算力則是核心基礎(chǔ)。當(dāng)ChatGPT引領(lǐng)全球進(jìn)入AI時(shí)代后,算力稀缺正逐漸成為制約AI發(fā)展的最大瓶頸。而算力,正是GPU等擅長(zhǎng)并行計(jì)算芯片的最大特點(diǎn)。因此,對(duì)算力需求越大,則越需求H100等高算力芯片。
圖源:國(guó)泰君安
(1)中美大廠
H100 GPU是英偉達(dá)繼A100之后的又一款旗艦GPU,曾經(jīng)A100已經(jīng)被認(rèn)為是AI服務(wù)器上的“核心主力”。據(jù)OpenAI資料顯示,目前最知名的AI大模型ChatGPT,訓(xùn)練一次13億參數(shù)的GPT-3 XL模型每天需要的全部算力約為27.5PFlop/s,而訓(xùn)練一次1746億參數(shù)的GPT-3模型每天需要的算力約為3640 PFlop/s。即使是在對(duì)模型的日常運(yùn)營(yíng)上來(lái)看,OpenAI仍舊需要每日消耗4800PFlop/s的算力。
這還僅是OpenAI一家的算力需求,國(guó)泰君安證券統(tǒng)計(jì),ChatGPT爆火之后,以谷歌、Meta、亞馬遜為首的互聯(lián)網(wǎng)大廠也在跟進(jìn)。據(jù)谷歌資料顯示,目前已經(jīng)建成包含26000個(gè)H100的A3服務(wù)器,還部署了數(shù)十臺(tái)TPU V4超級(jí)計(jì)算機(jī),每臺(tái)擁有4096個(gè)TPU芯片;亞馬遜官方資料顯示,它們即將推出的EC2超級(jí)集群可以擴(kuò)展至20000個(gè)互聯(lián)的H100;Meta資料顯示,亞馬遜云已經(jīng)擁有2000個(gè)DGX A100服務(wù)器,配備了超16000個(gè)A100 GPU,亞馬遜專(zhuān)家表示未來(lái)他們還會(huì)采購(gòu)3萬(wàn)片H100。
算力對(duì)經(jīng)濟(jì)的影響 ?圖源:中國(guó)通信院,國(guó)泰君安
國(guó)內(nèi)也涌現(xiàn)出諸如百度文心一言、訊飛星火大模型、360智腦等。在群雄逐鹿的大模型戰(zhàn)爭(zhēng)上,全球算力呈現(xiàn)極度緊缺態(tài)勢(shì),因此,AI服務(wù)器也成為英偉達(dá)GPU的最大應(yīng)用領(lǐng)域。
(2)中東
如果將地區(qū)的算力用山峰山谷的形式呈現(xiàn)在世界地圖上的話(huà),我們將看到中美兩國(guó)會(huì)升起全球最高的兩座山峰。根據(jù)信通院算力白皮書(shū)信息顯示,美國(guó)、中國(guó)、歐洲、日本在全球算力規(guī)模中的份額分別為34%、33%、14%與5%,其中全球基礎(chǔ)算力,美國(guó)份額達(dá)37%,中國(guó)以26%份額排名第二。
美中歐日算力分布的局面,與當(dāng)前世界上經(jīng)濟(jì)體量的分布大體相同。畢竟如今一張AI服務(wù)器專(zhuān)屬GPU動(dòng)輒數(shù)萬(wàn)美元,沒(méi)點(diǎn)“家底”真的是玩不起的。不過(guò)說(shuō)到經(jīng)濟(jì)實(shí)力,我們似乎忽略了世界上還有一群“錢(qián)多到流油”的國(guó)家——沙特與阿聯(lián)酋為首的海灣石油大國(guó)。
別看如今算力地圖上并無(wú)中東國(guó)家身影,但很明顯,AI引領(lǐng)的第四次信息革命之下,沒(méi)有一個(gè)國(guó)家想要落后。
據(jù)外媒《金融時(shí)報(bào)》消息顯示,沙特阿拉伯最近以4萬(wàn)美元單價(jià)購(gòu)入了至少3000塊英偉達(dá)H100 GPU芯片。此外阿聯(lián)酋也同樣購(gòu)買(mǎi)數(shù)千顆英偉達(dá)芯片,并將它們部署在阿布扎比馬斯達(dá)爾市的國(guó)有技術(shù)創(chuàng)新研究所內(nèi),用于創(chuàng)建了名為“Falcon”的大型語(yǔ)言模型上。消息人士稱(chēng)阿聯(lián)酋已經(jīng)做出決定,它希望擁有和控制其計(jì)算能力和人才,擁有自己的平臺(tái),而不是依賴(lài)中國(guó)人或美國(guó)人。此外,沙特大學(xué)擁有至少200臺(tái)滿(mǎn)載A100的服務(wù)器,預(yù)計(jì)還將建成并投入使用一臺(tái)超級(jí)計(jì)算機(jī)Shaheen III,這臺(tái)超級(jí)計(jì)算機(jī)仍舊會(huì)采用英偉達(dá)的芯片。
簡(jiǎn)單總結(jié)一下,當(dāng)ChatGPT憑借一個(gè)月的時(shí)間狂砍上億用戶(hù)數(shù)量來(lái)看,全球幾大經(jīng)濟(jì)體已經(jīng)開(kāi)啟“算力大戰(zhàn)”,對(duì)高算力AI芯片的需求遠(yuǎn)超英偉達(dá)的供應(yīng)能力。此外,AI浪潮下,除了中美等國(guó),中東國(guó)家如阿聯(lián)酋和沙特也積極參與這一搶購(gòu)浪潮,意圖借助英偉達(dá)H100GPU來(lái)推動(dòng)本國(guó)AI技術(shù)的快速發(fā)展。
為什么是H100?
從當(dāng)前的市場(chǎng)占比來(lái)看,英偉達(dá)已經(jīng)以極其恐怖的占比在GPU領(lǐng)域獲得了顯著優(yōu)勢(shì),在AI服務(wù)器領(lǐng)域已經(jīng)近乎壟斷。在今年3月結(jié)束的GTC大會(huì)上,英偉達(dá)創(chuàng)始人黃仁勛又身著一身皮衣現(xiàn)身發(fā)布會(huì)。會(huì)上他自豪的拿著H100 H100 NVLINK芯片,宣布要讓英偉達(dá)成為AI中的臺(tái)積電。AI的大趨勢(shì)無(wú)人可擋,既然H100被炒的這么高,那換其他GPU不可以嗎?
H100 是一款針對(duì)大模型專(zhuān)門(mén)優(yōu)化過(guò)的芯片,使用臺(tái)積電5nm定制版本制程(4N)打造,單塊芯片包含800億晶體管。H100同時(shí)也是全球首款PCI-E 5和HBM 3GPU,一塊GPU的IO帶寬就是40 Terabyte/s。
英偉達(dá)H100 GPU? 圖源:STH
對(duì)于ChatGPT等大模型的訓(xùn)練來(lái)說(shuō),算力決定了模型的訓(xùn)練速度,這與GPU的張量核心(NPU)數(shù)量有關(guān),不過(guò)其他參數(shù)也深刻影響著大模型的訓(xùn)練效果。
目前H100等專(zhuān)為AI訓(xùn)練設(shè)計(jì)并制造的顯卡,均采用HBM內(nèi)存作為GPU的配套存儲(chǔ)。HBM相對(duì)傳統(tǒng)顯存來(lái)說(shuō),其顆粒利用3D封裝的方式上下堆疊在一起,可以有效提升存儲(chǔ)與計(jì)算芯片之間的信息交換速率,對(duì)于AI大模型這種需要高頻讀取的算法來(lái)說(shuō),影像更甚。因此,普通GPU,例如英偉達(dá)最知名的RTX系列GPU就難以勝任大模型AI的訓(xùn)練任務(wù)。
我們還能從A100到H100升級(jí)的參數(shù)上看出AI對(duì)于GPU的需求。相對(duì)A100,H100有這個(gè)更低的緩存延遲和FP8計(jì)算能力。HBM可以提升緩存延遲,而提升FP8則是讓H100真正成為一顆“專(zhuān)注”AI的芯片。
FP8指的是8bit的Float數(shù)據(jù)類(lèi)型,內(nèi)存占用為FP32的1/4,F(xiàn)P16的1/2。FP8被廣泛用于AI訓(xùn)練之中,與FP16相比,F(xiàn)P8格式的訓(xùn)練吞吐量增加4倍,但損失精度不到0.1%。因此,應(yīng)用提升FP8計(jì)算可以有效降低模型對(duì)內(nèi)存的需求,提升訓(xùn)練速度并降低功耗,直接降低了訓(xùn)練成本。
不過(guò)可能有觀眾指出,既然H100更適合AI服務(wù)器,那英偉達(dá)的死對(duì)頭AMD是否有“平替”呢?
海外獨(dú)角獸的一份調(diào)查中顯示,AMD GPU理論上是可行的,但企業(yè)在面對(duì)替換風(fēng)險(xiǎn)與GPU軟件生態(tài),仍認(rèn)為選擇英偉達(dá)的GPU更為保險(xiǎn)。文章中認(rèn)為,某私有云公司的高管表示,設(shè)備從購(gòu)買(mǎi)到實(shí)際真正運(yùn)轉(zhuǎn)都需要一定時(shí)間,即便只是2個(gè)月左右的開(kāi)發(fā)和調(diào)試時(shí)間都意味著比競(jìng)爭(zhēng)對(duì)手更晚進(jìn)入市場(chǎng)。因此,擁有CUDA生態(tài)的英偉達(dá)可以率先占據(jù)開(kāi)發(fā)者的使用習(xí)慣,形成生態(tài)“護(hù)城河”。此外,文中另一觀點(diǎn)認(rèn)為很多公司的AI大模型訓(xùn)練成本已經(jīng)接近3億美元,沒(méi)有人會(huì)冒險(xiǎn)去大規(guī)模依賴(lài)AMD或其他初創(chuàng)公司的芯片。
CoWoS技術(shù) ?圖源:wikichip
其實(shí),記者了解到,目前生產(chǎn)H100等當(dāng)前最先進(jìn)GPU需要臺(tái)積電的CoWoS封裝。目前英偉達(dá)早已預(yù)訂了絕大部分該類(lèi)先進(jìn)封裝的產(chǎn)能,即使其他廠商想要與英偉達(dá)一爭(zhēng)高下,也需要等臺(tái)積電擴(kuò)產(chǎn)才行。
1000%的利潤(rùn)被誰(shuí)拿走?
圖源:攝圖網(wǎng)
盡管在全球搶購(gòu)與其不可替代屬性的加持下,H100的售價(jià)已經(jīng)達(dá)到了“黑心”的程度,但1000%的利益仍舊高的可怕。究其原因,其實(shí)這1000%的利潤(rùn)率并沒(méi)有完全進(jìn)了英偉達(dá)一家腰包。H100從工廠到用戶(hù)手中,其實(shí)經(jīng)過(guò)了不止一道程序。而這一切的原因還要追溯到2022年美國(guó)的一則禁令。
2022年9月2日,英偉達(dá)對(duì)外宣布,已經(jīng)獲得美國(guó)政府批準(zhǔn),可以在明年3月前繼續(xù)向美國(guó)客戶(hù)出口的產(chǎn)品提供A100,可以在明年9月前繼續(xù)履行A100和H100的訂單。
換言之,就在10天之后的2023年9月1如,英偉達(dá)A100與H100全系列GPU將被禁止出口到中國(guó)。此外根據(jù)美國(guó)證券交易委員會(huì)通知,英偉達(dá)將需要獲得許可才能向中國(guó)和俄羅斯出口任何基于最新架構(gòu)的H100、A100或DGX/HGX等系統(tǒng)。
禁令發(fā)出后,盡管中國(guó)企業(yè)仍可以通過(guò)美政府批準(zhǔn)后繼續(xù)進(jìn)口H100,事實(shí)上中國(guó)對(duì)于H100的采購(gòu)早已停止,美國(guó)此舉可能僅為了保護(hù)在華美資企業(yè)尾單不受損。不過(guò)H100的流通,可能不止局限于常規(guī)渠道。
此前曾有諸多報(bào)道指出,H100、A100正以一些非常規(guī)渠道從全世界流入中國(guó)境內(nèi)。路透社曾采訪過(guò)多家中國(guó)運(yùn)營(yíng)商,他們均表示還能輕松采購(gòu)少量A100或H100芯片,并通過(guò)航空運(yùn)輸至境內(nèi)客戶(hù)手中,因?yàn)樾∨坎少?gòu)可以更容易規(guī)避制裁與出境監(jiān)管。據(jù)了解,這些供應(yīng)商的進(jìn)貨渠道遍及全球,他們使用多種身份從官方渠道采購(gòu)后再流轉(zhuǎn)進(jìn)入中國(guó)。據(jù)了解,通過(guò)這種方式“悄悄”進(jìn)貨的方式,購(gòu)買(mǎi)價(jià)格要比通過(guò)常規(guī)途徑進(jìn)貨貴兩倍,A100的入手價(jià)格能達(dá)到2萬(wàn)美元左右。H100由于出品較晚,價(jià)格仍不穩(wěn)定,但其售價(jià)絕對(duì)會(huì)高出天際。
因此,盡管目前市場(chǎng)上充斥著超高售價(jià)的H100與A100,但這1000%的利潤(rùn)大概不會(huì)被英偉達(dá)全部拿走。馬斯克在推特調(diào)侃:“似乎每個(gè)人、每條狗都在購(gòu)買(mǎi)GPU……獲得GPU比獲得毒品還難”。這也似乎從側(cè)面證實(shí)了H100售賣(mài)的混亂。
不過(guò)至今任何一家媒體或都無(wú)法估算出具體能有多少H100或A100芯片通過(guò)這種方式流入中國(guó)。記者認(rèn)為,盡管美國(guó)政府極力阻止美企的高精尖產(chǎn)品出口中國(guó),但從英偉達(dá)戰(zhàn)略規(guī)劃中看出,目前中國(guó)蓬勃發(fā)展的AI市場(chǎng)已經(jīng)成為英偉達(dá)難以放棄的優(yōu)質(zhì)市場(chǎng)。
黃仁勛曾對(duì)美國(guó)的相關(guān)禁令表示不滿(mǎn):“拜登政府對(duì)半導(dǎo)體技術(shù)實(shí)施的出口限制,使英偉達(dá)感到‘束手束腳’。英偉達(dá)無(wú)法在全球最大市場(chǎng)之一的中國(guó)開(kāi)展業(yè)務(wù)。”為此,英偉達(dá)已經(jīng)為中國(guó)市場(chǎng)推出“專(zhuān)供產(chǎn)品”H800與A800,它們能很好的規(guī)避美政府提出的不合理出口限制,盡管這兩款GPU為100類(lèi)型的閹割版本。
盡管在參數(shù)上,A800與H800難以與原版型號(hào)相提并論,但我們?nèi)阅芸闯鲇ミ_(dá)對(duì)于中國(guó)市場(chǎng)的重視。換個(gè)角度看,如今H100與A100的種種“地下交易”,英偉達(dá)官方是不會(huì)出全力去限制的。
寫(xiě)在最后
AI浪潮中,中美紛紛搶購(gòu)H100,以滿(mǎn)足日益增長(zhǎng)的AI算力需求,尤其是大模型建設(shè),推動(dòng)了H100的需求和價(jià)格上漲。但AI并不是中美兩國(guó)的專(zhuān)利,海灣石油國(guó)家也積極參與AI領(lǐng)域競(jìng)爭(zhēng),試圖在全新的信息革命中實(shí)現(xiàn)對(duì)中美的“彎道超車(chē)”。而H100作為針對(duì)服務(wù)器的GPU,性能和獨(dú)特的生態(tài)系統(tǒng)使其難以替代,又恰逢美國(guó)對(duì)中國(guó)的芯片封鎖,讓更多的H100通過(guò)非常規(guī)渠道在全球流轉(zhuǎn)。種種原因下,H100這顆 “得天獨(dú)厚”的GPU讓廠商與整個(gè)銷(xiāo)售鏈條上的掮客們收獲了恐怖的1000%利潤(rùn)。
其實(shí),說(shuō)來(lái)說(shuō)去,關(guān)鍵原因還是在于沒(méi)人能夠挑戰(zhàn)英偉達(dá)的地位。如今AI時(shí)代到來(lái),或許英偉達(dá)還將借著AI東風(fēng)讓本就高不可攀的生態(tài)壁壘更加難以挑戰(zhàn)。但依舊是AI,這項(xiàng)技術(shù)仍舊賦予了其他廠商,甚至國(guó)家和地區(qū)實(shí)現(xiàn)“彎道超車(chē)”的能力。但就目前來(lái)說(shuō),英偉達(dá)短期在AI的地位無(wú)可替代。