免费爱爱的视频太爽了,久久久噜噜噜久噜久久综合

2024年8月8日下午，英特爾在深圳召開“英特爾AI座艙暨車載獨立顯卡發(fā)布會”，重磅發(fā)布了旗下首款銳炫?車載獨立顯卡——Arc A760-A。英特爾之所以選擇在深圳發(fā)布車載獨立顯卡，再次彰顯中國汽車電子的先進程度，也只有在中國，車載獨立顯卡才可能有市場，即便特斯拉也只是出貨量低到可以忽略的Model S Plaid使用過AMD的獨立顯卡，而且主力車型還是AMD的嵌入式平臺，沒有獨立顯卡。中國汽車市場尤其注重座艙體驗，并以此為賣點和差異化，車企都不惜成本來打造先進的座艙。

要流暢運行AI大模型主要依賴三個條件：① 存儲帶寬，② 存儲容量，③算力。這里的“流暢”，對大模型推理來說，首個token產(chǎn)生要低于1秒，后續(xù)token產(chǎn)生要低于2秒。

目前AI大模型都是針對因果建模目標進行預(yù)訓(xùn)練的，本質(zhì)上是作為下一個詞預(yù)測器。這些 LLM 將一系列tokens作為輸入，并自回歸生成后續(xù)tokens，直到滿足停止條件（例如，生成tokens數(shù)量的限制或遇到停止詞）或直到生成特殊的標記生成結(jié)束的tokens。該過程涉及兩個階段：預(yù)填充階段和解碼階段。

在預(yù)填充階段，LLM處理輸入token以計算中間狀態(tài)（keys和value），用于生成“第一個”token。每個新的token都依賴于所有先前的token，但由于輸入的全部已知，因此在運算上，都是高度并行化矩陣運算，可以有效地使用GPU。也就是說首個token的延遲取決于算力。

在解碼階段，LLM一次自回歸生成一個輸出token，直到滿足停止條件。每個輸出tokens都需要直到之前迭代的所有輸出狀態(tài)（keys和values）。這與預(yù)填充輸入處理相比，就像矩陣向量運算未充分利用GPU計算能力。數(shù)據(jù)（weights, keys, values, activations）從內(nèi)存?zhèn)鬏數(shù)紾PU的速度決定了延遲，而不是計算實際時間消耗。即，這是一個內(nèi)存限制操作。解碼階段，或者說后續(xù)token生成階段推理延遲時間是由大模型參數(shù)與存儲帶寬的之比決定。

首先來看存儲容量，在GPU做推理時，一般把存儲直接寫成顯存，但車載領(lǐng)域除非是獨立顯卡或者蘋果那樣的統(tǒng)一內(nèi)存UMA（Unified Memory Architecture），都是AI加速器（GPU）和CPU共享內(nèi)存，實際用于AI大模型的存儲容量會遠低于共享內(nèi)存的容量。高端車機的DRAM內(nèi)存容量在8-22GB之間，絕大多數(shù)基于高通SA8155的DRAM內(nèi)存容量是8GB，基于高通SA8295的DRAM內(nèi)存容量一般是12GB或16GB。

目前LLM大模型參數(shù)量一般有四檔，最低一檔是針對嵌入式，參數(shù)在60-80億之間，第二檔是130-450億，第三檔是700-800億，第四檔是1500億以上。座艙的AI大模型有可能同時運行兩個大模型，最高參數(shù)上限大約是140億參數(shù)，車載領(lǐng)域最低的INT8精度，140億參數(shù)就是14GB的容量。車機那種共享存儲的方式，車機操作系統(tǒng)、中間層、虛擬機等等所占存儲巨大，為保證車機流暢，分給AI大模型的容量不會超過50%。也就是說要支持140億參數(shù)，那么車機的DRAM至少要28GB，這是大模型的最低下限。對于真正的大模型，參數(shù)一般是700億，需要140GB的DRAM，這在車載領(lǐng)域完全不可想象，體積巨大，成本高昂。對于有獨立顯存的獨立顯卡只需要14GB就足夠，英特爾的獨立顯卡的顯存容量正是16GB。

如果DRAM容量低于大模型存儲容量，那么與電腦一樣，會轉(zhuǎn)入硬盤，對車機來說就是UFS，UFS目前高端的3.1版本，連續(xù)讀取速度很低，只有2.1GB/s，而英偉達Orin的帶寬是204.8，相差近百倍，延遲估計超過1分鐘，完全無法接受。

對大模型來說，存儲容量是最重要的，算力遠不及存儲容量，這也是為何算力不到300TOPS的Mac Studio with an M2 Ultra頂配可以運行高達3140億參數(shù)的超級大模型，Mac Studio with an M2 Ultra頂配統(tǒng)一內(nèi)存容量高達192GB，價格近9000美元。

存儲帶寬決定了推理計算速度的上限，假設(shè)一個大模型參數(shù)為70億，按照車載的INT8精度，它所占的存儲是7GB，如果是英偉達的RTX4090，它的顯存帶寬是1008GB/s，也就是每7毫秒生成一個token，這個就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s，也就是每110毫秒生成一個token，幀率不到10Hz，自動駕駛領(lǐng)域一般圖像幀率是30Hz，英偉達的Orin存儲帶寬是204.5GB/s，即每34毫秒生成一個token，勉強可以達到30Hz，注意這只是計算的數(shù)據(jù)搬運所需要的時間，數(shù)據(jù)計算的時間都完全忽略了，實際速度要遠低于這個數(shù)據(jù)。并且一個token也不夠用，至少需要兩個token，端到端的最終輸出結(jié)果用語言描述就是一段軌跡，比如直行，直行需要有個限制條件，至少有個速度的限制條件，多的可能需要5個以上token，簡單計算即可得出存儲帶寬需要1TB/s以上。

座艙領(lǐng)域不需要那么高的幀率，但座艙領(lǐng)域的模型更大，存儲帶寬最好在500GB/s以上。

汽車SoC芯片存儲帶寬一覽

來源：佐思汽研整理

YE180FC3T4MFG就是目前特斯拉車機用的主芯片。Snapdragon X-lite是高通第四代芯片，還沒有與之對應(yīng)的車載版本。而最常見的SA8155P其存儲帶寬是很低的。

最后是AI算力，這個只關(guān)系首個token的生成，重要程度很低，當然算力越高越好。

英特爾這次推出的獨立顯卡ARC A760-A基本上就是其2022年產(chǎn)品ARC A750的車載版。

來源：佐思汽研整理

不過在面向汽車時，Arc A760-A自然有一些特有技能。符合車規(guī)要求，包括寬溫、嚴苛環(huán)境的高等級可靠性、穩(wěn)定性特性是基本屬性。再有就是對OS和虛擬機的支持，ACRN是英特爾主導(dǎo)的開源虛擬機平臺，奇瑞和紅旗都曾經(jīng)用過，Yocto可以看做是嵌入式的Linux。

A750與A760-A最大的區(qū)別是存儲容量不同，A760-A增加到了16GB，其余硬件特性基本相同。我們可以大致推測出A760-A的一些硬件特性，采用臺積電的6納米N6工藝制造，217億晶體管，die size為406平方毫米。

矢量引擎改進了ALU單元，提供專用的FP浮點執(zhí)行接口，共享的INT/EM整數(shù)執(zhí)行接口，每個時鐘周期可以執(zhí)行16個FP32操作、32個FP16操作、64個INT8操作。

由于AI算法核心幾乎完全圍繞矩陣乘法、累加算法，所以Xe核心里加入了單獨的矩陣引擎，專門用于執(zhí)行XMX指令。它具備獨立的執(zhí)行端口，每個時鐘周期可以執(zhí)行128個FP16/BF16操作、256個INT8操作，512個INT4/INT2操作。MAC作為圖形渲染中的基本SIMD矢量指令，也是Xe矢量引擎的核心，可以執(zhí)行8次并行乘法，然后執(zhí)行8次并行加法，每個時鐘周期就是16個操作。

DP4a指令是針對不需要32位精度的AI計算所做的優(yōu)化，工作原理是將所有32位輸入分成8位塊，然后獨立執(zhí)行，總共32次并行乘法(紫色方塊)，每個時鐘周期就是64個操作，相比標準SIMD MAC提高了4倍。XMX指令也是每個操作分成4個塊，然后獨立相乘、累加，共有64個操作，每個時鐘周期4個階段就是256個操作，由此帶來16倍的算力提升。

根據(jù)存儲16GB的信息來看，英特爾肯定不會單獨出售芯片，出售的方式應(yīng)該是板卡或者干脆就是A750那樣的整機。由于獨立顯卡的供電也是汽車領(lǐng)域常用的12伏，所以A760-A的供電完全可以照搬A750的供電設(shè)計。

A750顯卡的正面PCB

上圖是A750顯卡的正面PCB，GPU供電是六相設(shè)計，電源管理是MPS的MPS2134，DrMOS是MPS的MP86956，可以對應(yīng)高達70A的電流，存儲的電源管理也是MPS的MPS2134。DrMOS是MPS的MP86950，對應(yīng)50A的電流，DP轉(zhuǎn)HDMI是Realtek的RTD2173。MP86956值得一提，它輸入電壓介于3-16伏之間，輸出電流穩(wěn)定在70A，最高瞬間125A，最高運行溫度高達125度，junction溫度高達150度。

根據(jù)英特爾介紹，A760-A支持6路攝像頭輸入，顯卡一般只有PCIe接口，攝像頭一般是MIPI CSI-2格式，英特爾應(yīng)該是加了轉(zhuǎn)換卡，將MIPI CSI-2轉(zhuǎn)換為PCIe或以太網(wǎng)格式。如果是以太網(wǎng)，那就是采用Marvell的88QB5224，將MIPI CSI-2信號轉(zhuǎn)換為符合802.3ch標準的車載以太網(wǎng)信號，可以使用非屏蔽的單對雙絞線，最高傳輸速率10Gbps，最高可以支持800萬像素的攝像頭，也可以支持多個攝像頭，只需要增加以太網(wǎng)交換機即可。

88QB5224的框架如上圖，后端可以輸出也可以直接給PC系統(tǒng)的萬兆網(wǎng)卡接口，萬兆網(wǎng)卡再通過PCIe輸入到CPU。

基于FPGA的MIPI CSI-2轉(zhuǎn)PCIe框架圖

第二種是PCIe，采用LATTICE的FPGA，將MIPI CSI-2輸出信號即原始的RAW信號首先放進一個ISP中，將RAW信號轉(zhuǎn)換成RGB信號再轉(zhuǎn)換YUV422信號，然后通過直接存儲接入即DMA引擎，根據(jù)輸出端的視頻幀率調(diào)整緩沖幀。FPGA內(nèi)的Transaction Layer Packet即TLP對YUV422信號進行解碼，再生成PCIe格式數(shù)據(jù)，最高傳輸速率為3.1Gbps。

PCIe的成本要高很多，還需要更貴的PCIe交換機，推測還是以太網(wǎng)的可能性大，不過這令人十分困惑，顯卡不需要單獨外接攝像頭信號，直接接收攝像頭信號的是CPU，顯卡再通過PCIe與CPU連接。

英特爾A750獨立顯卡性能大概是英偉達的RTX3060。A750價格約為1800-2000元人民幣左右，RTX3060價格基本上是翻倍的3600-4000元人民幣，A760-A加了一倍內(nèi)存，還可能加了MIPI CSI-2轉(zhuǎn)接卡，價格估計要高1000-1500元人民幣。不過最難的應(yīng)該是功耗，TDP功耗高達225瓦，這是一個不容忽視的耗電源。散熱和可靠性也要考慮，最好是水冷散熱，否則要在機艙內(nèi)給顯卡留出足夠的空間空氣對流。

最麻煩的還是獨立顯卡是外設(shè)，它不能獨立工作，它需要CPU配合，配合最好的自然是英特爾自家的CPU，英特爾獨立顯卡的DeepLink技術(shù)正是基于此開發(fā)，別的CPU用起來效率應(yīng)該是不如英特爾自己的CPU。

免責說明：本文觀點和數(shù)據(jù)僅供參考，和實際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點、數(shù)據(jù)僅代表筆者立場，不具有任何指導(dǎo)、投資和決策意見。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
NCV70627DQ001R2G	1	onsemi	LIN Microstepping Motor Driver 800mA, SSOP-36L EXPOSED PAD, 1500-REEL		$6.08	查看
MLX90372GVS-ACC-303-RE	1	Melexis Microelectronic Integrated Systems	Analog Circuit,		暫無數(shù)據(jù)	查看
AD5700BCPZ-R5	1	Analog Devices Inc	Low Power HART Modem	ECAD模型下載ECAD模型	$9.82	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

NCV70627DQ001R2G

onsemi

LIN Microstepping Motor Driver 800mA, SSOP-36L EXPOSED PAD, 1500-REEL