英偉達(dá)Orin后繼者Thor大約在2021年底開(kāi)始確定設(shè)計(jì)范圍,2022年9月首次亮相,2023年4季度Thor推出工程樣片,預(yù)計(jì)2024年3季度量產(chǎn)。目前已知Thor有三個(gè)版本,一個(gè)是Thor-X,估計(jì)價(jià)格在600-800美元之間,另一個(gè)是Thor-X-Super,估計(jì)價(jià)格在1000-1300美元之間,最后一個(gè)是Thor-Jetson,用于機(jī)器人和工業(yè)領(lǐng)域,沒(méi)有太多資料透露,只知道算力是800TOPS,以太網(wǎng)接口帶寬在100Gb, 估計(jì)價(jià)格在400-500美元之間。不排除還有其他版本的Thor存在。
基本上Thor-X-Super就是Thor-X的兩片合二為一,可能使用了MCM,類似Chiplet的工藝。就像蘋果的Duo系列,不過(guò)蘋果還有更強(qiáng)的Ultra。
據(jù)悉Thor配備了NVLink C2C接口,最高可達(dá)720Gbps即90GB/s,盡管這個(gè)速率還沒(méi)超過(guò)第一代NVLink 160GB/s(目前NVLink已演進(jìn)至第五代,速率1800GB/s,NVLink是英偉達(dá)核心技術(shù),作用遠(yuǎn)在CUDA之上),但是加入NVLink,意味著可以用8張或更多Thor建設(shè)數(shù)據(jù)中心了,跟用閹割版英偉達(dá)A100搭建數(shù)據(jù)中心沒(méi)有本質(zhì)區(qū)別了,盡管速率只有第五代NVLink 4.0的1/20,美國(guó)商務(wù)部也極大概率會(huì)禁止此項(xiàng)技術(shù)出售給中國(guó)。
應(yīng)該是Thor-X-Super芯片內(nèi)部用NVLink C2C將兩片Thor-X連接起來(lái)。這種接口的帶寬速率遠(yuǎn)超汽車行業(yè)常用的以太網(wǎng)交換機(jī)接口兩百倍,是真正的兩片性能疊加,那些用以太網(wǎng)交換機(jī)的,兩片Orin級(jí)聯(lián),性能提升應(yīng)該不會(huì)超過(guò)10%,換句話說(shuō)兩片Orin級(jí)聯(lián),算力提升不到30TOPS。
Thor還添加了一些座艙領(lǐng)域的需求,特別是顯示輸出方面,顯然,Thor是考慮艙駕一體的。
英偉達(dá)的GPU-CPU Superchip可以看做是Thor的放大版。
先來(lái)看CPU,CPU采用了ARM的服務(wù)器系列Neoverse的V2架構(gòu),同樣采用此架構(gòu)的還有英偉達(dá)的Grace,不過(guò)Grace是高達(dá)144核心,存儲(chǔ)帶寬高達(dá)1TB/s,遠(yuǎn)在Thor之上。
Neoverse專為AI數(shù)據(jù)中心設(shè)計(jì),特別支持BF16這種比較新的數(shù)據(jù)格式,有些不適合GPU的AI運(yùn)算則由CPU負(fù)責(zé),不依賴外接GPU,單單Grace 也能達(dá)到57TOPS@FP8的算力。GH200中的CPU減少一半,即72核心,其余性能也都減半。V2的L1緩存是128KB,L2緩存每個(gè)核心是2MB,不過(guò)英偉達(dá)的Grace考慮成本,降低到了1MB。高通新一代的Oryon CPU 的L1緩存是192KB,L2緩存則是3MB,遠(yuǎn)比英偉達(dá)要高。
V2的解碼位寬是6位,A78是4位,提升約50%,而高通新一代Oryon是8位。對(duì)于CPU,關(guān)鍵的參數(shù)主要有兩個(gè),一個(gè)是IPC解碼寬度,另一個(gè)就是緩存,ARM是擠牙膏式的,每年做一次小升級(jí),讓利潤(rùn)最大化。蘋果則一步到位,性能最大化,以至于蘋果連續(xù)數(shù)年都無(wú)法升級(jí)性能,安卓手機(jī)受困于ARM的擠牙膏,性能始終無(wú)法和蘋果看齊,這也是高通拋棄ARM的主要原因。即便是AI數(shù)據(jù)中心領(lǐng)域,ARM也是擠牙膏,V1的解碼位寬是5位,V2是6位,V3估計(jì)是8位。
ARM架構(gòu)的性能對(duì)比表
整理:佐思汽研
GPU采用了最新的Blackwell架構(gòu),不過(guò)Blackwell主要優(yōu)化有兩點(diǎn),一是支持更低精度即FP4或INT4,另一個(gè)就是更好地支持MoE即混合專家模式。
作為一種基于 Transformer 架構(gòu)的模型,混合專家模型主要由兩個(gè)關(guān)鍵部分組成:
稀疏 MoE 層:?這些層代替了傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡(luò) (FFN) 層。MoE 層包含若干“專家”(例如 8 個(gè)),每個(gè)專家本身是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)。在實(shí)際應(yīng)用中,這些專家通常是前饋網(wǎng)絡(luò) (FFN),但它們也可以是更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),甚至可以是 MoE 層本身,從而形成層級(jí)式的 MoE 結(jié)構(gòu)。
門控網(wǎng)絡(luò)或路由: 這個(gè)部分用于決定哪些token 被發(fā)送到哪個(gè)專家。例如,在下圖中,“More”這個(gè)令牌可能被發(fā)送到第二個(gè)專家,而“Parameters”這個(gè)token被發(fā)送到第一個(gè)專家。有時(shí),一個(gè)token甚至可以被發(fā)送到多個(gè)專家。token的路由方式是 MoE 使用中的一個(gè)關(guān)鍵點(diǎn),因?yàn)?a class="article-link" target="_blank" href="/tag/%E8%B7%AF%E7%94%B1%E5%99%A8/">路由器由學(xué)習(xí)的參數(shù)組成,并且與網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。
總結(jié)
在混合專家模型 (MoE) 中,將傳統(tǒng) Transformer 模型中的每個(gè)前饋網(wǎng)絡(luò) (FFN) 層替換為 MoE 層,其中 MoE 層由兩個(gè)核心部分組成: 一個(gè)門控網(wǎng)絡(luò)和若干數(shù)量的專家。
MoE的出現(xiàn)主要是為了應(yīng)對(duì)超大規(guī)模LLM訓(xùn)練,例如萬(wàn)億級(jí)參數(shù)規(guī)模的訓(xùn)練,能夠大大提高LLM大模型訓(xùn)練效率,減小計(jì)算時(shí)間,但對(duì)存儲(chǔ)要求更高。這與車載領(lǐng)域沒(méi)有任何關(guān)系,車載領(lǐng)域連單獨(dú)的顯存都沒(méi)有,需要和CPU共用顯存,且規(guī)模非常有限,一般不超過(guò)32GB,且大多是帶寬很低的LPDDR5,最高支持模型參數(shù)不超過(guò)100億,萬(wàn)億級(jí)參數(shù)的大模型訓(xùn)練至少需要數(shù)萬(wàn)美元的HBM顯存支持,推理也需要近萬(wàn)美元的HBM顯存支持,這在車載領(lǐng)域完全無(wú)法想象。
存儲(chǔ)帶寬決定了推理計(jì)算速度的上限,假設(shè)一個(gè)大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲(chǔ)是7GB,如果是英偉達(dá)的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個(gè)token,這個(gè)就是RTX4090的理論速度上限。如果是特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s,也就是每110毫秒生成一個(gè)token,幀率不到10Hz,自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz,英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s,也就是每34毫秒生成一個(gè)token,勉強(qiáng)可以達(dá)到30Hz,注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需要的時(shí)間,數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了,實(shí)際速度要低于這個(gè)數(shù)據(jù)。
再有就是英偉達(dá)Orin的GPU運(yùn)算部分和CPU是共享LPDDR5存儲(chǔ)帶寬的,而AI數(shù)據(jù)中心或顯卡領(lǐng)域,GPU是獨(dú)享顯存的,CPU則是使用另外的DDR存儲(chǔ)。
Orin的存儲(chǔ)帶寬還要分一部分給CPU部分,因?yàn)镃PU任何時(shí)候都需要數(shù)據(jù)載入和寫入,這方面從未有人做過(guò)深入研究,很難估計(jì)Orin給GPU的帶寬是多少,大概有50-70%。按70%計(jì)算的話,那么英偉達(dá)Orin最高支持大模型規(guī)模是50億參數(shù),考慮到計(jì)算時(shí)間和CPU的任務(wù)安排推送,50億參數(shù)還要打折扣,估計(jì)是40億參數(shù),當(dāng)然如果降低幀率,只應(yīng)對(duì)低速場(chǎng)合,最高可支持到100億參數(shù)左右。而特斯拉第一代FSD最高支持大模型規(guī)模大約15億參數(shù)。
如果限定幀率30Hz,那么Thor-X支持大模型參數(shù)上限大約為70億,這也是入門級(jí)端到端模型的整體參數(shù)規(guī)模,性能恰好夠,不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存儲(chǔ),帶寬可輕松超過(guò)Thor-X-Super,下一代AI5即HW5.0估計(jì)支持GDDR7,帶寬估計(jì)超過(guò)1TB/s,是Thor-X的5倍,最高支持350億參數(shù)大模型沒(méi)有問(wèn)題。對(duì)英偉達(dá)來(lái)說(shuō),GDDR6/7駕輕就熟,早就用在其顯卡芯片上了,然而車載領(lǐng)域芯片還是得考慮成本,最終還是妥協(xié),只用了LPDDR5X。
自動(dòng)駕駛芯片廠家都有自己的市場(chǎng)定位,實(shí)際各廠家之間技術(shù)能力差距可以忽略,關(guān)鍵是市場(chǎng)定位,英偉達(dá)主要就是中國(guó)的新興造車和奔馳,定位最高端市場(chǎng),主打高性能高價(jià)。高通就是定位全球范圍內(nèi)的傳統(tǒng)車廠,主打中高端市場(chǎng),主打高性價(jià)比,高通大概率不會(huì)推出對(duì)標(biāo)Thor的產(chǎn)品。Mobileye則定位中低端市場(chǎng),主打就是低價(jià)。
對(duì)英偉達(dá)而言,最大的威脅不是國(guó)內(nèi)芯片企業(yè),而是美國(guó)商務(wù)部,按照美國(guó)商務(wù)部之前的標(biāo)準(zhǔn)總處理性能TPP不超過(guò)4800的規(guī)定,Thor-X是1000*8*2=16000,遠(yuǎn)超4800,只要美國(guó)商務(wù)部高興,它隨時(shí)可以禁止英偉達(dá)銷售Thor,對(duì)英偉達(dá)來(lái)說(shuō)車載業(yè)務(wù)占其總收入不到2%,英偉達(dá)也不會(huì)費(fèi)盡心思再出一個(gè)閹割版的Thor。