作者:葉子凌,編輯:陳彬
前幾天,英偉達(dá)成為首家市值達(dá)到2萬億美金的芯片公司,創(chuàng)造了歷史。同一時(shí)間,一家名為Groq的初創(chuàng)公司橫空出世,揚(yáng)言“三年之內(nèi)趕超英偉達(dá)”。
Groq狠話的底氣,來源于它所開發(fā)的芯片——LPU。
LPU的全稱是Language Processing Unit,翻譯過來就是語(yǔ)言處理單元,是一種新型AI加速器。在它的支持下,大模型的推理速度快得驚人,瞬間能輸出長(zhǎng)篇幅答案;而使用了英偉達(dá)芯片的GPT-4,只能一個(gè)字一個(gè)字往外蹦。
前者的響應(yīng)速度最高可達(dá)到500T/S,而后者只有40T/S[1]。
這是什么概念?相當(dāng)于一秒鐘生成300個(gè)單詞,7分鐘生成一部《哈姆雷特》長(zhǎng)度級(jí)的文章。
Groq背后的團(tuán)隊(duì)也可謂群星璀璨,公司CEO Jonathan Ross是谷歌初代TPU的設(shè)計(jì)者之一。早期谷歌TPU團(tuán)隊(duì)的10位成員中,8位都跳槽到了Groq。
自2016年成立,Groq就飽受市場(chǎng)關(guān)注。2020年,Groq的芯片被美國(guó)阿貢實(shí)驗(yàn)室采用。2021年,Groq獲老虎環(huán)球基金等機(jī)構(gòu)投資,估值超過10億美元。
然而,Groq公司的各種“挑釁”,英偉達(dá)完全沒放在眼里。相比之下,此前“奧特曼7萬億美元造芯”的新聞出來之后,黃仁勛至少還出來說了兩句。
畢竟,眼下Groq的種種套路,老黃可再熟悉不過了。
文字游戲
當(dāng)下,制約AI芯片發(fā)展的主要困境,是內(nèi)存墻:內(nèi)存的傳輸速度遠(yuǎn)遠(yuǎn)慢于處理器算力,導(dǎo)致性能遲遲上不去。
如果把芯片想象成一個(gè)餐廳,那么內(nèi)存就是倉(cāng)庫(kù),處理器就是后廚。
倉(cāng)庫(kù)送菜比后廚烹飪還慢,嚴(yán)重限制了餐廳的出菜速度。因此,包括英偉達(dá)在內(nèi)的芯片廠商,都在圍繞“倉(cāng)庫(kù)(內(nèi)存)”做文章。而Groq碾壓英偉達(dá)的秘訣,也藏在內(nèi)存結(jié)構(gòu)里。
傳統(tǒng)計(jì)算機(jī)所使用的內(nèi)存,其實(shí)有兩種:
DRAM容量較大,但傳輸速度較慢,起主存作用;而SRAM容量較小,但傳輸速度極快,作為緩存發(fā)揮輔助作用。一直以來,二者都是合作關(guān)系,缺一不可。
但Groq為了追求極致的速度,摒棄了DRAM,讓SRAM扛起了LPU主存大旗。
相當(dāng)于砍掉距離廚房較遠(yuǎn)的大倉(cāng)庫(kù),直接將所有食材都堆在廚房邊的菜籃子里。這樣的設(shè)計(jì)思路下,LPU不但在速度上形成降維打擊,還輕松繞過了兩個(gè)成本最高的技術(shù):HBM和先進(jìn)封裝。
這也構(gòu)成了Groq另一個(gè)大吹特吹的宣傳核心:便宜。
根據(jù)Semi Analysis的拆解,LPU由于具備架構(gòu)優(yōu)勢(shì),物料成本僅為1050美元。相比之下,去年全球瘋狂的H100芯片,物料成本則達(dá)到3700美元[2]。
在售價(jià)層面,一塊LPU的價(jià)格是20000美元,遠(yuǎn)低于H100的35000美元。
但歷史無數(shù)次告訴我們,大部分彎道超車的結(jié)局都是有田下山,LPU也不例外。
大模型對(duì)內(nèi)存大小也有著很高的要求。參數(shù)量越大的模型,運(yùn)行時(shí)所需要存儲(chǔ)的數(shù)據(jù)也會(huì)更多。
SRAM雖然快,但缺陷是容量小,通常只有4-16MB。Groq研發(fā)團(tuán)隊(duì)多年苦心鉆研,最終也只是將LPU的容量提升至230MB。而一塊H100的內(nèi)存容量是80GB,兩者間差了約356倍。菜籃子再怎么升級(jí)換代,終究無法和倉(cāng)庫(kù)相提并論。
想裝下所有的食材,唯一的辦法就是把菜籃子數(shù)量堆上去。因此,在運(yùn)行同樣參數(shù)的模型時(shí),需要用到的LPU數(shù)量就遠(yuǎn)遠(yuǎn)高于GPU。
前阿里技術(shù)副總裁賈揚(yáng)清就算了一筆賬:
以運(yùn)行LLaMA 70b模型為例,需要572張LPU,售價(jià)1144萬美元;但如果換成H100,其實(shí)只需要8張,總價(jià)格在30萬美元左右——所謂的“便宜”壓根不成立。
芯片一多,整體的功耗成本也直線上升。LPU每年至少消耗25.4萬美元電費(fèi),而H100頂多花費(fèi)2.4萬美元。
事實(shí)證明,Groq的遙遙領(lǐng)先,只是隱去了核心信息的文字游戲。它所宣傳的“高速”,是以近乎夸張的使用成本換來的:運(yùn)行三年LLaMA 70b模型,LPU的使用成本將比英偉達(dá)的GPU高出32倍。
當(dāng)然,Groq的研發(fā)團(tuán)隊(duì),顯然對(duì)此心知肚明。選擇此時(shí)大張旗鼓,更像是一種拉投資的舉動(dòng)。
事實(shí)上,這已經(jīng)不是Groq第一次公開“蹭熱度”了。
之前GPT Store剛發(fā)布時(shí),Groq給OpenAI的奧特曼發(fā)了一封信,嘲笑使用GPTs跟在“深夜讀《戰(zhàn)爭(zhēng)與和平》一樣緩慢”。馬斯克的聊天機(jī)器人Grok發(fā)布時(shí),它也跑去貼臉嘲諷,質(zhì)疑Grok抄襲了自己的名字。
過去幾年,打著“替代英偉達(dá)”旗號(hào)的初創(chuàng)公司數(shù)不勝數(shù),Groq只不過是其中之一。目前,在超車英偉達(dá)的這條彎道,已經(jīng)出現(xiàn)了嚴(yán)重塞車。
前車之鑒
Groq最直觀的參考樣本,來自英國(guó)公司Graphcore。
Graphcore誕生之初,也曾拿著“技術(shù)路線別出心裁、演示視頻酷炫驚艷、性能數(shù)據(jù)秒殺同行”的劇本,拳頭產(chǎn)品IPU與Groq的LPU設(shè)計(jì)思路異曲同工,也是用高速的SRAM取代DRAM作為芯片內(nèi)存,以實(shí)現(xiàn)極致的傳輸性能。
同時(shí),Graphcore調(diào)整了芯片架構(gòu),專注于處理高性能計(jì)算。
它曾頗有自知之明地表示“不與英偉達(dá)直接競(jìng)爭(zhēng)”,只將目標(biāo)客戶定位在,特別需要大量高性能計(jì)算的化學(xué)材料和醫(yī)療等特殊領(lǐng)域。
2019年,微軟成為Graphcore首款I(lǐng)PU的大客戶。2020年5月,微軟科學(xué)家將IPU內(nèi)置于微軟Azure操作系統(tǒng)中,用于識(shí)別胸部X光片。這位科學(xué)家說道:
“Graphcore芯片可以在30分鐘內(nèi)完成,GPU需要5個(gè)小時(shí)才能完成的工作?!?/p>
在最風(fēng)光的2016至2020年間,Graphcore共拿到了7.1億美元融資,估值高達(dá)27.7億美元,一度被視為全英國(guó)乃至歐洲全村的希望。Graphcore的投資者不僅有微軟、三星、戴爾等科技巨頭,也囊括了紅杉資本、柏基投資等頂級(jí)風(fēng)投。
相比今天的Groq,當(dāng)年的Graphcore只能說有過之無不及。但Graphcore的后續(xù)發(fā)展卻遠(yuǎn)遠(yuǎn)不及當(dāng)時(shí)的預(yù)期。
2022年,Graphcore全年?duì)I收只有270萬美元,為英偉達(dá)同期收入的萬分之一,且相較前一年下降46%,虧損達(dá)到了2億美元。2023年,人工智能浪潮爆發(fā),英偉達(dá)業(yè)績(jī)?cè)俣缺q。H100一卡難求之時(shí),Graphcore以為自己至少能撿到英偉達(dá)的漏,結(jié)果卻連湯都沒喝著。
去年,Graphcore的創(chuàng)始人Nigel Toon向英國(guó)首相寫了篇“公開信”,討要補(bǔ)貼。
他寫道,“Graphcore已經(jīng)為英國(guó)預(yù)留了多達(dá)3000個(gè)IPU芯片,可以為整個(gè)國(guó)家提供服務(wù)”,幾乎已經(jīng)是明示要錢[4]。
不久前,一面業(yè)績(jī)虧損,一面融資無果的Graphcore走向了最后一條路:尋求收購(gòu)。根據(jù)The Telegraph爆料,其售價(jià)可能在5億多美元——不到2020年最高估值時(shí)期的五分之一[5]。
當(dāng)年,以Graphcore為首的挑戰(zhàn)者們,各懷絕學(xué),來勢(shì)洶洶,頗有一種八大門派圍攻光明頂?shù)募纫暩?。然而,如今多已散作鳥獸狀。
去年3月,芯片公司Mythic一度因資金耗盡而瀕臨倒閉,快要淹死之際,才好不容易等到了救命韁繩,拿到了1300萬美元融資。
另一家芯片公司Blaize也出現(xiàn)了類似的困境,最后靠著中東土豪的投資,才活了下來。
剩下的公司中,Habana可能是唯一活得不錯(cuò)的——它被英特爾以20億收購(gòu),保留了獨(dú)立運(yùn)營(yíng)的權(quán)利。
從Graphcore到Mythic,這些芯片公司的技術(shù)路線各不相同;然而,它們失敗的原因,卻出奇一致。事實(shí)上,今天大火的Groq,同樣也極有可能倒在同一個(gè)地方:
芯片賣不出去。
真正的護(hù)城河
英偉達(dá)的GPU固然厲害,但它賣芯片的套路,才是真正的護(hù)城河。
每年,英偉達(dá)都會(huì)投入相當(dāng)一部分的研發(fā)經(jīng)費(fèi),圍繞GPU搭建系統(tǒng)性能力。當(dāng)然,這是高情商的說法,低情商的說法是開發(fā)一起“捆綁銷售”的產(chǎn)品——這才是英偉達(dá)最堅(jiān)實(shí)的城墻。目前,英偉達(dá)的城墻共有3層:
第一層城墻,是CUDA的編程生態(tài)。
眾所周知,GPU最初的使用場(chǎng)景是游戲與視頻圖像渲染。早期,一些華爾街精英偶爾利用GPU的并行計(jì)算能力來跑交易,但由于需要重新編寫大量代碼,因此并未廣泛傳播開來。
黃仁勛堅(jiān)信GPU能用于更多領(lǐng)域,因此在2006年推出了降低編程門檻的軟件架構(gòu)CUDA,和自家GPU捆綁推出。
后來,蘋果和AMD都推出了類似平臺(tái),但此時(shí)CUDA生態(tài)早已構(gòu)建,在“用得人越多,CUDA越好用,新開發(fā)者越傾向于選擇CUDA”的良性循環(huán)中穩(wěn)定前進(jìn)。
如今,CUDA可以讓英偉達(dá)GPU的使用成本大幅降低。
一位私有云CEO曾在接受采訪時(shí)說過,理論上AMD卡也不是不能用,但要把這些卡調(diào)試到正常運(yùn)轉(zhuǎn),需要多耗費(fèi)兩個(gè)月[6]——找誰(shuí)下單,答案不言而喻。
第二層城墻,是NV-Link的高速傳輸。
一個(gè)數(shù)據(jù)中心,不可能只使用一塊AI芯片。然而,如果將2塊AI芯片連在一起,那么實(shí)際算力必然會(huì)小于2,因?yàn)?a class="article-link" target="_blank" href="/tag/%E6%95%B0%E6%8D%AE%E4%BC%A0%E8%BE%93/">數(shù)據(jù)傳輸的速度慢于芯片算力,且過程中還存在損耗。
顯然,在GPU數(shù)量迅速膨脹的數(shù)據(jù)中心內(nèi),解決數(shù)據(jù)傳輸問題其關(guān)鍵。
2016年,英偉達(dá)為IBM服務(wù)器提供GPU時(shí),首次用上了自研的NVLink技術(shù),帶寬高達(dá)80G/s,通信速度提高了5倍,性能提升了14%,好評(píng)不斷。此后幾年,英偉達(dá)一邊迭代NVLink技術(shù),一邊規(guī)定該技術(shù)必須綁定自家芯片使用。
套路雖然簡(jiǎn)單直白,但就是有效。
而第三層城墻,則是英偉達(dá)的“鐵桿好兄弟聯(lián)盟”。
過去一年,英偉達(dá)是全球最主要的人工智能投資人之一,活躍程度甚至超過了a16z和紅杉等頂級(jí)投資機(jī)構(gòu)。
據(jù)外媒統(tǒng)計(jì),英偉達(dá)去年至少有35筆人工智能投資,包括:由前DeepMind聯(lián)合創(chuàng)始人創(chuàng)辦的Inflection AI,歐洲人工智能獨(dú)角獸Mistral,世界最大的開源模型社區(qū)Hugging Face等等[7]。
積極投資的目的,其實(shí)很簡(jiǎn)單:當(dāng)黃仁勛提著美金和H100芯片,敲開這些公司的大門,沒有人會(huì)再拒絕英偉達(dá)。
這所有的一切,足以讓市面上絕大多數(shù)公司,都綁死在英偉達(dá)的船上。
面對(duì)性能強(qiáng)大的英偉達(dá)GPU,各路初創(chuàng)公司們或許有辦法,打造出性能相匹敵的產(chǎn)品。然而。英偉達(dá)賣芯片的套路,卻讓這些公司始終難以招架。因此,Graphcore等挑戰(zhàn)者的失敗,真的不是不努力。
當(dāng)眼下的炒作逐漸回歸寂靜,Groq也得思考相同的問題:到底誰(shuí)會(huì)翻過三座大山,來買LPU?
尾聲
2月23日,英偉達(dá)市值突破2萬億美元。距離上一個(gè)1萬億,僅僅過了9個(gè)月。
Groq的爆火,讓市場(chǎng)又一次開始討論同一個(gè)問題:到底有沒有人能叫板英偉達(dá)?
遺憾的是,英偉達(dá)遠(yuǎn)比人們想象的要強(qiáng)大。人工智能浪潮給芯片行業(yè)提供了一塊大蛋糕,英偉達(dá)并沒有分的意思,而是整個(gè)端走塞進(jìn)了口袋。
芯片初創(chuàng)公司Mythic的CEO曾憤然表示,人工智能火了,他們卻更難融資了,就是英偉達(dá)“搞壞了大環(huán)境”。
根據(jù)PitchBook數(shù)據(jù),截至2023年8月底,美國(guó)芯片初創(chuàng)企業(yè)融資8.814億美元,約為2022年同期的一半。交易數(shù)量的變化則更加觸目驚心:從23宗減少到了4宗[8]。Graphcore、Mythic的前車之鑒歷歷在目,所以也不怪Groq跟大家玩兒文字游戲。面對(duì)這么一個(gè)“湯都不給喝”的龐然大物,Groq又能怎么辦呢?
參考資料
[1] Jay Scambler,X[2] Groq Inference Tokenomics: Speed, But At What Cost,Semi Analysis[3] 大模型最快推理芯片一夜易主:谷歌TPU創(chuàng)業(yè)團(tuán)隊(duì)打造,量子位[4] OPEN LETTER TO THE UK PRIME MINISTER ON INVESTMENT IN EXASCALE COMPUTE,Graphcore[5] British AI champion explores foreign sale,The Telegraph[6] Nvidia H100 GPUs: Supply and Demand,GPU Utils[7] Nvidia emerges as leading investor in AI companies,F(xiàn)T[8] Nvidia's dominance in AI chips deters funding for startups,reuters
編輯:陳彬視覺設(shè)計(jì):疏睿責(zé)任編輯:陳彬