亚欧无码vs在线观看,久久人人做人人爽人人AV

英偉達(dá)Orin后繼者Thor大約在2021年底開(kāi)始確定設(shè)計(jì)范圍，2022年9月首次亮相，2023年4季度Thor推出工程樣片，預(yù)計(jì)2024年3季度量產(chǎn)。目前已知Thor有三個(gè)版本，一個(gè)是Thor-X，估計(jì)價(jià)格在600-800美元之間，另一個(gè)是Thor-X-Super，估計(jì)價(jià)格在1000-1300美元之間，最后一個(gè)是Thor-Jetson，用于機(jī)器人和工業(yè)領(lǐng)域，沒(méi)有太多資料透露，只知道算力是800TOPS，以太網(wǎng)接口帶寬在100Gb，估計(jì)價(jià)格在400-500美元之間。不排除還有其他版本的Thor存在。

基本上Thor-X-Super就是Thor-X的兩片合二為一，可能使用了MCM，類似Chiplet的工藝。就像蘋果的Duo系列，不過(guò)蘋果還有更強(qiáng)的Ultra。

據(jù)悉Thor配備了NVLink C2C接口，最高可達(dá)720Gbps即90GB/s，盡管這個(gè)速率還沒(méi)超過(guò)第一代NVLink 160GB/s（目前NVLink已演進(jìn)至第五代，速率1800GB/s，NVLink是英偉達(dá)核心技術(shù)，作用遠(yuǎn)在CUDA之上），但是加入NVLink，意味著可以用8張或更多Thor建設(shè)數(shù)據(jù)中心了，跟用閹割版英偉達(dá)A100搭建數(shù)據(jù)中心沒(méi)有本質(zhì)區(qū)別了，盡管速率只有第五代NVLink 4.0的1/20，美國(guó)商務(wù)部也極大概率會(huì)禁止此項(xiàng)技術(shù)出售給中國(guó)。

應(yīng)該是Thor-X-Super芯片內(nèi)部用NVLink C2C將兩片Thor-X連接起來(lái)。這種接口的帶寬速率遠(yuǎn)超汽車行業(yè)常用的以太網(wǎng)交換機(jī)接口兩百倍，是真正的兩片性能疊加，那些用以太網(wǎng)交換機(jī)的，兩片Orin級(jí)聯(lián)，性能提升應(yīng)該不會(huì)超過(guò)10%，換句話說(shuō)兩片Orin級(jí)聯(lián)，算力提升不到30TOPS。

Thor還添加了一些座艙領(lǐng)域的需求，特別是顯示輸出方面，顯然，Thor是考慮艙駕一體的。

英偉達(dá)的GPU-CPU Superchip可以看做是Thor的放大版。

先來(lái)看CPU，CPU采用了ARM的服務(wù)器系列Neoverse的V2架構(gòu)，同樣采用此架構(gòu)的還有英偉達(dá)的Grace，不過(guò)Grace是高達(dá)144核心，存儲(chǔ)帶寬高達(dá)1TB/s，遠(yuǎn)在Thor之上。

Neoverse專為AI數(shù)據(jù)中心設(shè)計(jì)，特別支持BF16這種比較新的數(shù)據(jù)格式，有些不適合GPU的AI運(yùn)算則由CPU負(fù)責(zé)，不依賴外接GPU，單單Grace 也能達(dá)到57TOPS@FP8的算力。GH200中的CPU減少一半，即72核心，其余性能也都減半。V2的L1緩存是128KB，L2緩存每個(gè)核心是2MB，不過(guò)英偉達(dá)的Grace考慮成本，降低到了1MB。高通新一代的Oryon CPU 的L1緩存是192KB，L2緩存則是3MB，遠(yuǎn)比英偉達(dá)要高。

V2的解碼位寬是6位，A78是4位，提升約50%，而高通新一代Oryon是8位。對(duì)于CPU，關(guān)鍵的參數(shù)主要有兩個(gè)，一個(gè)是IPC解碼寬度，另一個(gè)就是緩存，ARM是擠牙膏式的，每年做一次小升級(jí)，讓利潤(rùn)最大化。蘋果則一步到位，性能最大化，以至于蘋果連續(xù)數(shù)年都無(wú)法升級(jí)性能，安卓手機(jī)受困于ARM的擠牙膏，性能始終無(wú)法和蘋果看齊，這也是高通拋棄ARM的主要原因。即便是AI數(shù)據(jù)中心領(lǐng)域，ARM也是擠牙膏，V1的解碼位寬是5位，V2是6位，V3估計(jì)是8位。

ARM架構(gòu)的性能對(duì)比表

整理：佐思汽研

GPU采用了最新的Blackwell架構(gòu)，不過(guò)Blackwell主要優(yōu)化有兩點(diǎn)，一是支持更低精度即FP4或INT4，另一個(gè)就是更好地支持MoE即混合專家模式。

作為一種基于 Transformer 架構(gòu)的模型，混合專家模型主要由兩個(gè)關(guān)鍵部分組成:

稀疏 MoE 層:?這些層代替了傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡(luò) (FFN) 層。MoE 層包含若干“專家”(例如 8 個(gè))，每個(gè)專家本身是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)。在實(shí)際應(yīng)用中，這些專家通常是前饋網(wǎng)絡(luò) (FFN)，但它們也可以是更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，甚至可以是 MoE 層本身，從而形成層級(jí)式的 MoE 結(jié)構(gòu)。

門控網(wǎng)絡(luò)或路由: 這個(gè)部分用于決定哪些token 被發(fā)送到哪個(gè)專家。例如，在下圖中，“More”這個(gè)令牌可能被發(fā)送到第二個(gè)專家，而“Parameters”這個(gè)token被發(fā)送到第一個(gè)專家。有時(shí)，一個(gè)token甚至可以被發(fā)送到多個(gè)專家。token的路由方式是 MoE 使用中的一個(gè)關(guān)鍵點(diǎn)，因?yàn)?a class="article-link" target="_blank" href="/tag/%E8%B7%AF%E7%94%B1%E5%99%A8/">路由器由學(xué)習(xí)的參數(shù)組成，并且與網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。

總結(jié)

在混合專家模型 (MoE) 中，將傳統(tǒng) Transformer 模型中的每個(gè)前饋網(wǎng)絡(luò) (FFN) 層替換為 MoE 層，其中 MoE 層由兩個(gè)核心部分組成: 一個(gè)門控網(wǎng)絡(luò)和若干數(shù)量的專家。

MoE的出現(xiàn)主要是為了應(yīng)對(duì)超大規(guī)模LLM訓(xùn)練，例如萬(wàn)億級(jí)參數(shù)規(guī)模的訓(xùn)練，能夠大大提高LLM大模型訓(xùn)練效率，減小計(jì)算時(shí)間，但對(duì)存儲(chǔ)要求更高。這與車載領(lǐng)域沒(méi)有任何關(guān)系，車載領(lǐng)域連單獨(dú)的顯存都沒(méi)有，需要和CPU共用顯存，且規(guī)模非常有限，一般不超過(guò)32GB，且大多是帶寬很低的LPDDR5，最高支持模型參數(shù)不超過(guò)100億，萬(wàn)億級(jí)參數(shù)的大模型訓(xùn)練至少需要數(shù)萬(wàn)美元的HBM顯存支持，推理也需要近萬(wàn)美元的HBM顯存支持，這在車載領(lǐng)域完全無(wú)法想象。

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限，假設(shè)一個(gè)大模型參數(shù)為70億，按照車載的INT8精度，它所占的存儲(chǔ)是7GB，如果是英偉達(dá)的RTX4090，它的顯存帶寬是1008GB/s，也就是每7毫秒生成一個(gè)token，這個(gè)就是RTX4090的理論速度上限。如果是特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s，也就是每110毫秒生成一個(gè)token，幀率不到10Hz，自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz，英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s，也就是每34毫秒生成一個(gè)token，勉強(qiáng)可以達(dá)到30Hz，注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需要的時(shí)間，數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了，實(shí)際速度要低于這個(gè)數(shù)據(jù)。

再有就是英偉達(dá)Orin的GPU運(yùn)算部分和CPU是共享LPDDR5存儲(chǔ)帶寬的，而AI數(shù)據(jù)中心或顯卡領(lǐng)域，GPU是獨(dú)享顯存的，CPU則是使用另外的DDR存儲(chǔ)。

Orin的存儲(chǔ)帶寬還要分一部分給CPU部分，因?yàn)镃PU任何時(shí)候都需要數(shù)據(jù)載入和寫入，這方面從未有人做過(guò)深入研究，很難估計(jì)Orin給GPU的帶寬是多少，大概有50-70%。按70%計(jì)算的話，那么英偉達(dá)Orin最高支持大模型規(guī)模是50億參數(shù)，考慮到計(jì)算時(shí)間和CPU的任務(wù)安排推送，50億參數(shù)還要打折扣，估計(jì)是40億參數(shù)，當(dāng)然如果降低幀率，只應(yīng)對(duì)低速場(chǎng)合，最高可支持到100億參數(shù)左右。而特斯拉第一代FSD最高支持大模型規(guī)模大約15億參數(shù)。

如果限定幀率30Hz，那么Thor-X支持大模型參數(shù)上限大約為70億，這也是入門級(jí)端到端模型的整體參數(shù)規(guī)模，性能恰好夠，不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存儲(chǔ)，帶寬可輕松超過(guò)Thor-X-Super，下一代AI5即HW5.0估計(jì)支持GDDR7，帶寬估計(jì)超過(guò)1TB/s，是Thor-X的5倍，最高支持350億參數(shù)大模型沒(méi)有問(wèn)題。對(duì)英偉達(dá)來(lái)說(shuō)，GDDR6/7駕輕就熟，早就用在其顯卡芯片上了，然而車載領(lǐng)域芯片還是得考慮成本，最終還是妥協(xié)，只用了LPDDR5X。

自動(dòng)駕駛芯片廠家都有自己的市場(chǎng)定位，實(shí)際各廠家之間技術(shù)能力差距可以忽略，關(guān)鍵是市場(chǎng)定位，英偉達(dá)主要就是中國(guó)的新興造車和奔馳，定位最高端市場(chǎng)，主打高性能高價(jià)。高通就是定位全球范圍內(nèi)的傳統(tǒng)車廠，主打中高端市場(chǎng)，主打高性價(jià)比，高通大概率不會(huì)推出對(duì)標(biāo)Thor的產(chǎn)品。Mobileye則定位中低端市場(chǎng)，主打就是低價(jià)。

對(duì)英偉達(dá)而言，最大的威脅不是國(guó)內(nèi)芯片企業(yè)，而是美國(guó)商務(wù)部，按照美國(guó)商務(wù)部之前的標(biāo)準(zhǔn)總處理性能TPP不超過(guò)4800的規(guī)定，Thor-X是1000*8*2=16000，遠(yuǎn)超4800，只要美國(guó)商務(wù)部高興，它隨時(shí)可以禁止英偉達(dá)銷售Thor，對(duì)英偉達(dá)來(lái)說(shuō)車載業(yè)務(wù)占其總收入不到2%，英偉達(dá)也不會(huì)費(fèi)盡心思再出一個(gè)閹割版的Thor。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATSAMA5D31A-CU	1	Atmel Corporation	RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324	ECAD模型下載ECAD模型	$22.61	查看
STM32F407IGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下載ECAD模型	$13.79	查看
AT89C51CC03CA-RDTUM	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64VQFP		$8.65	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ATSAMA5D31A-CU

Atmel Corporation

RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324