日韩精品专区一二三区,综合久久久久久久

高通8295就是通用汽車2023年的Ultra Cruise用的芯片，基本上就是高通驍龍888的車載版，驍龍888的首發(fā)價格大約240美元，目前大約170美元（高通公開資料能查到其MSM芯片出貨量與收入，平均價格大約30-35美元），因為大部分成本都已經(jīng)被出貨量兩三千萬的手機覆蓋，因此SA8295價格可以很低。

不過高通車載芯片一般都交給臺積電代工，臺積電代工遠(yuǎn)比三星價格高（臺積電營業(yè)利潤率幾乎是三星晶圓代工業(yè)務(wù)4倍），估計SA8295價格大約150美元，如果是三星的5納米，估計價格是120美元或100美元，但高通要外加AI加速器，不過AI加速器價格預(yù)計不超過50美元，合在一起，高通仍具備價格優(yōu)勢。

Orin的出貨量自然無法和驍龍888比，但三星的成熟工藝，加上有座艙版、游戲機版多個版本分?jǐn)偝杀荆瑑r格估計是320美元。不過這個單價意義不大，目前L3/L4智能駕駛車輛價格高昂，而技術(shù)迭代很快，產(chǎn)品生命周期越來越短，整個生命周期內(nèi)的出貨量都微乎其微，開發(fā)費平攤在每一輛車上的成本遠(yuǎn)超ECU 硬件成本，廠家考慮的是整體成本，特別是軟件的成本和一次性費用，對SoC的單價應(yīng)該不在意，芯片廠家也是推全套方案，軟硬件全包。

2021年11月9日，英偉達(dá)正式推出采用Orin的模塊，即Jeston AGX Orin，這意味著個人用戶也可以買到自動駕駛領(lǐng)域的頂級運算模組。當(dāng)年Jeston AGXXavier的價格是1099美元（現(xiàn)在價格已降到699美元，國內(nèi)報價大約6千人民幣含稅），Jeston AGX Orin價格不會太高，估計是1499-1799美元，3年后價格估計也就是1299美元。

圖片來源：互聯(lián)網(wǎng)

模組里還包括32GB的LPDDR5，帶寬有204.8GB/s，價格大約是105美元，近期LPDDR5價格上漲，連蘋果13都節(jié)約成本用LPDDR4。64GB的eMMC倒是很便宜，目前主要7美元。其余關(guān)鍵的芯片還有一片QSPI NOR和Secure NOR，這兩片價格都不高，估計5-8美元。還有電源系統(tǒng)。

圖片來源：互聯(lián)網(wǎng)

Orin內(nèi)部框架圖，可以簡單分為5部分，存儲、外圍、CPU、GPU和加速器。

圖片來源：互聯(lián)網(wǎng)

Orin功能框架圖

圖片來源：互聯(lián)網(wǎng)

Orin CPU部分框架圖，這里的A78應(yīng)該是A78AE（Automotive Enhanced），即針對汽車領(lǐng)域的A78。ARM建議A78使用5納米工藝，運行頻率2.1GHz-2.8GHz之間?？紤]到車規(guī)，英偉達(dá)將運行頻率上限定為2GHz。出于成本考慮，也沒使用5納米工藝，而是使用三星的8納米工藝，效果與臺積電的10納米差不多。

英偉達(dá)放棄了自研的大小核架構(gòu)，改用ARM的簇架構(gòu)，這就是ARM在2017年提出的DSU，DynamIQ Shared Unit (DSU)控制單元，其允許最多8個CPU核心構(gòu)成一個簇（Cluster），單個處理器最多可實現(xiàn)32個簇，這樣一個處理最多可以擁有256個核心，并可通過CCIX總線擴展到1000個核心。

英偉達(dá)沒有公布過Xavier的CPU框架圖，應(yīng)該也是4個核心為一簇，有兩個簇，英偉達(dá)Xavier的緩存還是有詳細(xì)說明。

緩存上看，Orin好像比較在意成本，L2和L1的緩存比較小，L3倒是不小。

圖片來源：互聯(lián)網(wǎng)

A78AE的內(nèi)部框架，似乎為了內(nèi)存保護和鎖步，所以L1的緩存容量不高。DSU可以分配各級緩存，還負(fù)責(zé)控制簇內(nèi)每個CPU核心開關(guān)，頻率高低，電壓大小，是控制CPU性能與功耗的關(guān)鍵。所以DSU部分做了邏輯控制冗余。這是與消費類A78的主要區(qū)別，即添加了DSU-AE。

圖片來源：互聯(lián)網(wǎng)

分區(qū)模式下，DSU控制每個簇火力全開，鎖步模式下，每個簇內(nèi)都有一核處于休眠狀態(tài)，一旦監(jiān)測到異常就啟用備份系統(tǒng)。

圖片來源：互聯(lián)網(wǎng)

GPU方面，每個流處理器SM包含128個CUDA核，共有16個SM，合計2048個CUDA，算力為4096GFLOPS。還有64個張量核Tensor，稀疏INT8模型下算力達(dá)131TOPS，或者密集INT8下54TOPS。

圖片來源：互聯(lián)網(wǎng)

64個張量核采用半精度矩陣乘和累加和集成乘和累加運算指令集，HMMA (Half-Precision Matrix Multiply and Accumulate) 和IMMA (Integer Matrix Multiple and Accumulate)，讓GPU架構(gòu)也能對應(yīng)稠密代數(shù)運算和深度學(xué)習(xí)推理。英偉達(dá)采用精細(xì)變換權(quán)重系統(tǒng)，將稠密訓(xùn)練權(quán)重稀疏權(quán)重模型。稀疏約束為每4個權(quán)重，兩個不能為零。經(jīng)過這樣變換后，權(quán)重的存取空間大幅度縮小，張量處理還可以跳過零值，速度增加兩倍。

圖片來源：互聯(lián)網(wǎng)

英偉達(dá)深度學(xué)習(xí)加速器內(nèi)部框架，英偉達(dá)的深度學(xué)習(xí)加速器是針對推理應(yīng)用的，或許是認(rèn)為沒有什么技術(shù)含量，英偉達(dá)對DLA介紹的非常簡單，寥寥數(shù)語，對GPU、CPU、PVA都介紹的很詳細(xì)。也的確，深度學(xué)習(xí)加速器沒什么技術(shù)含量，就是乘和累加運算單元的堆砌。改進之處就是增加了608KB的緩沖，實際應(yīng)該就是加了608KB的SRAM，提高了運行效率，小模型無需頻繁讀取DRAM。這個DLA性能為INT8稀疏模型97TOPs，兩個是194TOPs。上一代的Xavier是11.4TOPs，不過是稠密模型。

圖片來源：互聯(lián)網(wǎng)

PROGRAMMABLE VISION ACCELERATOR可編程視覺加速器即PVA架構(gòu)如上圖。與Xavier的一代PVA相比，增加了1MB的L2，其余幾乎不變。PVA主要針對濾波、扭曲、圖形三角生成、特征檢測、FFT等矢量運算，具體應(yīng)用主要是立體雙目、特征檢測器、特征追蹤、目標(biāo)追蹤。包含兩個7Slot（兩個標(biāo)量、兩個矢量和三個存儲）VLIW矢量處理器，兩個DMA引擎和一個實時性Cortex-R5。

圖片來源：互聯(lián)網(wǎng)

PVA的典型應(yīng)用立體雙目視差管線。這里特別需要指出英偉達(dá)著力推廣的VPI，Vision Programming Interface (VPI)是英偉達(dá)高性能計算機視覺/圖像處理算法庫接口。VPI為各種不同的硬件提供統(tǒng)一的接口，如CPU, GPU, Programmable Vision Accelerator (PVA), 以及Video Image Compositor (VIC)，而且提供方便調(diào)用的GPU并行功能。?支持的算法包括高斯金字塔發(fā)生器，拉普拉斯金字塔，可分離圖像壓縮器，箱式圖像濾波器，高斯圖像濾波器，雙邊圖像濾波器，圖像重新縮放，圖像重映射，圖像直方圖，直方圖均衡化，快速傅里葉變換，逆向快速傅里葉變換，圖像格式轉(zhuǎn)換器，透視翹曲，背景減法，鏡頭失真矯正，時間性降噪，金字塔式LK光學(xué)流，及本身常用算法都包括了。?英偉達(dá)VPI似乎有意取代OpenCV，在英偉達(dá)的計算平臺上，VPI比OpenCV明顯要快。

某些移動端如可分離卷積Separable Convolution，效率提高29倍。?英偉達(dá)用CUDA壟斷深度學(xué)習(xí)，下一個目標(biāo)就是用VPI壟斷計算機視覺算法。

圖片來源：互聯(lián)網(wǎng)

接口方面，最高提供6個CSI攝像頭接口，看起來似乎不多，通過虛擬通道可以增加到16個。一般自動駕駛都是使用雙Orin，16個MIPI CSI通道也就是4個800萬像素，雙Orin是8個800萬像素。

圖片來源：互聯(lián)網(wǎng)

接口基本上就是對應(yīng)上圖的架構(gòu)，16個400萬像素攝像頭，8個激光雷達(dá)，通過1個1G的以太網(wǎng)。兩個10G的以太網(wǎng)連接上骨干網(wǎng)和交換機。?與Xavier比，Orin的AI算力主要來自DLA，而Xavier則是GPU。從簡單的裸晶圖片看，下一代的Atlan應(yīng)該又重回Xavier路線，AI算力主要來自GPU，GPU的面積遠(yuǎn)比DLA要大，因為增加了一個DPU模塊，DLA的面積被大幅度壓縮了。下一代GPU架構(gòu)代號或許是Ada Lovelace，阿達(dá)·洛芙萊斯（Ada Lovelace）是人類第一個程序員，英國著名詩人拜倫之女，數(shù)學(xué)家。

Orin的完成度感覺不高，特別是CPU，加上A78后ARM的一系列新技術(shù)，蘋果、三星、英特爾甚至聯(lián)發(fā)科都有能力挑戰(zhàn)Orin，問題是相對手機和PC，L3/L4智能汽車市場太小了，且要提供全套解決方案，后進廠家在軟件方面花費巨大，這就讓Orin幾乎壟斷市場。國產(chǎn)芯片要想挑戰(zhàn)Orin，必須購買ARM的最先進架構(gòu)，還有采用至少5納米的先進工藝，這導(dǎo)致一次性成本至少是1億美元，芯片的整體開發(fā)成本預(yù)計在2億美元以上，整個生命周期內(nèi)出貨量即使10萬輛，單SoC的成本都要2000美元，顯然這個價格是車廠無法接受的。任何企業(yè)想單靠汽車市場挑戰(zhàn)Orin是完全不可能的。

英偉達(dá)Orin的價格估計與深度分析

相關(guān)推薦

電子產(chǎn)業(yè)圖譜