高通8295就是通用汽車2023年的Ultra Cruise用的芯片,基本上就是高通驍龍888的車載版,驍龍888的首發(fā)價格大約240美元,目前大約170美元(高通公開資料能查到其MSM芯片出貨量與收入,平均價格大約30-35美元),因為大部分成本都已經(jīng)被出貨量兩三千萬的手機覆蓋,因此SA8295價格可以很低。
不過高通車載芯片一般都交給臺積電代工,臺積電代工遠(yuǎn)比三星價格高(臺積電營業(yè)利潤率幾乎是三星晶圓代工業(yè)務(wù)4倍),估計SA8295價格大約150美元,如果是三星的5納米,估計價格是120美元或100美元,但高通要外加AI加速器,不過AI加速器價格預(yù)計不超過50美元,合在一起,高通仍具備價格優(yōu)勢。
Orin的出貨量自然無法和驍龍888比,但三星的成熟工藝,加上有座艙版、游戲機版多個版本分?jǐn)偝杀荆瑑r格估計是320美元。不過這個單價意義不大,目前L3/L4智能駕駛車輛價格高昂,而技術(shù)迭代很快,產(chǎn)品生命周期越來越短,整個生命周期內(nèi)的出貨量都微乎其微,開發(fā)費平攤在每一輛車上的成本遠(yuǎn)超ECU硬件成本,廠家考慮的是整體成本,特別是軟件的成本和一次性費用,對SoC的單價應(yīng)該不在意,芯片廠家也是推全套方案,軟硬件全包。
2021年11月9日,英偉達(dá)正式推出采用Orin的模塊,即Jeston AGX Orin,這意味著個人用戶也可以買到自動駕駛領(lǐng)域的頂級運算模組。當(dāng)年Jeston AGXXavier的價格是1099美元(現(xiàn)在價格已降到699美元,國內(nèi)報價大約6千人民幣含稅),Jeston AGX Orin價格不會太高,估計是1499-1799美元,3年后價格估計也就是1299美元。
圖片來源:互聯(lián)網(wǎng)
模組里還包括32GB的LPDDR5,帶寬有204.8GB/s,價格大約是105美元,近期LPDDR5價格上漲,連蘋果13都節(jié)約成本用LPDDR4。64GB的eMMC倒是很便宜,目前主要7美元。其余關(guān)鍵的芯片還有一片QSPI NOR和Secure NOR,這兩片價格都不高,估計5-8美元。還有電源系統(tǒng)。
圖片來源:互聯(lián)網(wǎng)
Orin內(nèi)部框架圖,可以簡單分為5部分,存儲、外圍、CPU、GPU和加速器。
圖片來源:互聯(lián)網(wǎng)
Orin功能框架圖
圖片來源:互聯(lián)網(wǎng)
Orin CPU部分框架圖,這里的A78應(yīng)該是A78AE(Automotive Enhanced),即針對汽車領(lǐng)域的A78。ARM建議A78使用5納米工藝,運行頻率2.1GHz-2.8GHz之間??紤]到車規(guī),英偉達(dá)將運行頻率上限定為2GHz。出于成本考慮,也沒使用5納米工藝,而是使用三星的8納米工藝,效果與臺積電的10納米差不多。
英偉達(dá)放棄了自研的大小核架構(gòu),改用ARM的簇架構(gòu),這就是ARM在2017年提出的DSU,DynamIQ Shared Unit (DSU)控制單元,其允許最多8個CPU核心構(gòu)成一個簇(Cluster),單個處理器最多可實現(xiàn)32個簇,這樣一個處理最多可以擁有256個核心,并可通過CCIX總線擴展到1000個核心。
英偉達(dá)沒有公布過Xavier的CPU框架圖,應(yīng)該也是4個核心為一簇,有兩個簇,英偉達(dá)Xavier的緩存還是有詳細(xì)說明。
緩存上看,Orin好像比較在意成本,L2和L1的緩存比較小,L3倒是不小。
圖片來源:互聯(lián)網(wǎng)
A78AE的內(nèi)部框架,似乎為了內(nèi)存保護和鎖步,所以L1的緩存容量不高。DSU可以分配各級緩存,還負(fù)責(zé)控制簇內(nèi)每個CPU核心開關(guān),頻率高低,電壓大小,是控制CPU性能與功耗的關(guān)鍵。所以DSU部分做了邏輯控制冗余。這是與消費類A78的主要區(qū)別,即添加了DSU-AE。
圖片來源:互聯(lián)網(wǎng)
分區(qū)模式下,DSU控制每個簇火力全開,鎖步模式下,每個簇內(nèi)都有一核處于休眠狀態(tài),一旦監(jiān)測到異常就啟用備份系統(tǒng)。
圖片來源:互聯(lián)網(wǎng)
GPU方面,每個流處理器SM包含128個CUDA核,共有16個SM,合計2048個CUDA,算力為4096GFLOPS。還有64個張量核Tensor,稀疏INT8模型下算力達(dá)131TOPS,或者密集INT8下54TOPS。
圖片來源:互聯(lián)網(wǎng)
64個張量核采用半精度矩陣乘和累加和集成乘和累加運算指令集,HMMA (Half-Precision Matrix Multiply and Accumulate) 和IMMA (Integer Matrix Multiple and Accumulate),讓GPU架構(gòu)也能對應(yīng)稠密代數(shù)運算和深度學(xué)習(xí)推理。英偉達(dá)采用精細(xì)變換權(quán)重系統(tǒng),將稠密訓(xùn)練權(quán)重稀疏權(quán)重模型。稀疏約束為每4個權(quán)重,兩個不能為零。經(jīng)過這樣變換后,權(quán)重的存取空間大幅度縮小,張量處理還可以跳過零值,速度增加兩倍。
圖片來源:互聯(lián)網(wǎng)
英偉達(dá)深度學(xué)習(xí)加速器內(nèi)部框架,英偉達(dá)的深度學(xué)習(xí)加速器是針對推理應(yīng)用的,或許是認(rèn)為沒有什么技術(shù)含量,英偉達(dá)對DLA介紹的非常簡單,寥寥數(shù)語,對GPU、CPU、PVA都介紹的很詳細(xì)。也的確,深度學(xué)習(xí)加速器沒什么技術(shù)含量,就是乘和累加運算單元的堆砌。改進之處就是增加了608KB的緩沖,實際應(yīng)該就是加了608KB的SRAM,提高了運行效率,小模型無需頻繁讀取DRAM。這個DLA性能為INT8稀疏模型97TOPs,兩個是194TOPs。上一代的Xavier是11.4TOPs,不過是稠密模型。
圖片來源:互聯(lián)網(wǎng)
PROGRAMMABLE VISION ACCELERATOR可編程視覺加速器即PVA架構(gòu)如上圖。與Xavier的一代PVA相比,增加了1MB的L2,其余幾乎不變。PVA主要針對濾波、扭曲、圖形三角生成、特征檢測、FFT等矢量運算,具體應(yīng)用主要是立體雙目、特征檢測器、特征追蹤、目標(biāo)追蹤。包含兩個7Slot(兩個標(biāo)量、兩個矢量和三個存儲)VLIW矢量處理器,兩個DMA引擎和一個實時性Cortex-R5。
圖片來源:互聯(lián)網(wǎng)
PVA的典型應(yīng)用立體雙目視差管線。這里特別需要指出英偉達(dá)著力推廣的VPI,Vision Programming Interface (VPI)是英偉達(dá)高性能計算機視覺/圖像處理算法庫接口。VPI為各種不同的硬件提供統(tǒng)一的接口,如CPU, GPU, Programmable Vision Accelerator (PVA), 以及Video Image Compositor (VIC),而且提供方便調(diào)用的GPU并行功能。?支持的算法包括高斯金字塔發(fā)生器,拉普拉斯金字塔,可分離圖像壓縮器,箱式圖像濾波器,高斯圖像濾波器,雙邊圖像濾波器,圖像重新縮放,圖像重映射,圖像直方圖,直方圖均衡化,快速傅里葉變換,逆向快速傅里葉變換,圖像格式轉(zhuǎn)換器,透視翹曲,背景減法,鏡頭失真矯正,時間性降噪,金字塔式LK光學(xué)流,及本身常用算法都包括了。?英偉達(dá)VPI似乎有意取代OpenCV,在英偉達(dá)的計算平臺上,VPI比OpenCV明顯要快。
某些移動端如可分離卷積Separable Convolution,效率提高29倍。?英偉達(dá)用CUDA壟斷深度學(xué)習(xí),下一個目標(biāo)就是用VPI壟斷計算機視覺算法。
圖片來源:互聯(lián)網(wǎng)
接口方面,最高提供6個CSI攝像頭接口,看起來似乎不多,通過虛擬通道可以增加到16個。一般自動駕駛都是使用雙Orin,16個MIPI CSI通道也就是4個800萬像素,雙Orin是8個800萬像素。
圖片來源:互聯(lián)網(wǎng)
接口基本上就是對應(yīng)上圖的架構(gòu),16個400萬像素攝像頭,8個激光雷達(dá),通過1個1G的以太網(wǎng)。兩個10G的以太網(wǎng)連接上骨干網(wǎng)和交換機。?與Xavier比,Orin的AI算力主要來自DLA,而Xavier則是GPU。從簡單的裸晶圖片看,下一代的Atlan應(yīng)該又重回Xavier路線,AI算力主要來自GPU,GPU的面積遠(yuǎn)比DLA要大,因為增加了一個DPU模塊,DLA的面積被大幅度壓縮了。下一代GPU架構(gòu)代號或許是Ada Lovelace,阿達(dá)·洛芙萊斯(Ada Lovelace)是人類第一個程序員,英國著名詩人拜倫之女,數(shù)學(xué)家。
Orin的完成度感覺不高,特別是CPU,加上A78后ARM的一系列新技術(shù),蘋果、三星、英特爾甚至聯(lián)發(fā)科都有能力挑戰(zhàn)Orin,問題是相對手機和PC,L3/L4智能汽車市場太小了,且要提供全套解決方案,后進廠家在軟件方面花費巨大,這就讓Orin幾乎壟斷市場。國產(chǎn)芯片要想挑戰(zhàn)Orin,必須購買ARM的最先進架構(gòu),還有采用至少5納米的先進工藝,這導(dǎo)致一次性成本至少是1億美元,芯片的整體開發(fā)成本預(yù)計在2億美元以上,整個生命周期內(nèi)出貨量即使10萬輛,單SoC的成本都要2000美元,顯然這個價格是車廠無法接受的。任何企業(yè)想單靠汽車市場挑戰(zhàn)Orin是完全不可能的。