首先來做一個芯片的成本分析,考慮到不同公司之間研發(fā)成本差異巨大,所以主要研究固定成本,固定成本主要來自流片成本和晶圓成本以及封測成本。
流片即tape-out,成本主要來自光罩的制作。依照不同的制程,光罩的數(shù)量也不一樣多,下表是TSMC在不同制程的大致光罩?jǐn)?shù)量,可以發(fā)現(xiàn),越新的制程,光罩?jǐn)?shù)量越多。(少數(shù)節(jié)點(diǎn)有光罩?jǐn)?shù)持平的現(xiàn)象,是因?yàn)閾QFinFET或引進(jìn)EUV mask。)
在新制程中,每一道光罩的成本也增加了,所以整套光罩成本是幾何性地增加。據(jù)估計,一套16nm光罩需要1億新臺幣,約合2千萬人民幣,已經(jīng)是天價了,到了2nm,光罩要價高達(dá)30億新臺幣,大約6億人民幣。三星8納米光罩成本大約900萬美元,7納米的光罩成本大約1200-1500萬美元,5納米大約4000-5000萬美元。
流片也有兩種類型,一種是Full Mask,“全掩膜”的意思,即在一次制造流程中整個掩膜只為某一個設(shè)計服務(wù)。另一種是MPW (Multi Project Wafer,多項目晶圓),即在一次制造流程中整個掩膜為多個設(shè)計項目服務(wù),也即同一次制造流程可以承擔(dān)多個IC設(shè)計的制造任務(wù)。不過這種方式花費(fèi)時間成本較高,進(jìn)度無法掌控,對于車廠而言,進(jìn)度無法掌控完全不可接受,因此相信小鵬和蔚來都是Full Mask。
一片十二英寸晶圓面積大約70685平方毫米,英偉達(dá)Orin的die size是450平方毫米。
12英寸晶圓可以切割大約125片Orin,臺積電7納米晶圓每片大約10000美元,三星8納米晶圓價格大約6000美元,每片Orin的晶圓成本大約48美元,封裝與測試成本大約2美元,即50美元。Orin目前千顆起售價大約500美元,毛利率大約90%,英偉達(dá)一向如此,毛利率基本就是90%。
蔚來和小鵬的自研芯片都是對標(biāo)雙Orin的性能,即使5納米工藝,die size最低下限跟Orin也應(yīng)該差不多,當(dāng)然如果降低性能,die size可以小很多。我們假定die size還是450平方毫米,那么每片晶圓可以切割125片,假設(shè)采用了臺積電的5納米工藝制造,臺積電5納米晶圓每片16000美元,每個芯片成本大約128美元,加上2美元的封測費(fèi),大致是130美元。如果4納米的話每片晶圓是19000美元,每個芯片成本大約152美元,整體成本大約155美元。
臺積電基本上是下單量2.5萬片起,那么一次性下單就是312.5萬個芯片,考慮到汽車銷量,這么高的量,大部分廠家估計5年都用不完,5納米的話也就是一次性需要付出4億美元。光罩成本每片分?jǐn)偞蠹s13美元,每片成本大約143美元。這么大的量估計對小鵬和蔚來來說壓力很大,據(jù)說三星的最小下單量遠(yuǎn)低于臺積電(盡管這樣三星還是客戶很少),估計是5千片起,那么就是62.5萬個芯片,三星的5納米晶圓每片價格大約低臺積電20%,也就是大約13000美元,每個芯片成本大約105美元,但光罩分?jǐn)偝杀緯笤龅?4美元,每個芯片等于169美元硬件成本。這也就理解為什么特斯拉和英偉達(dá)Orin一直在三星下單的原因了。
除了研發(fā)成本還有各種IP購買成本、EDA成本、索喜這樣的芯片設(shè)計與制造服務(wù)成本,估計大約在1.5-2億美元之間,如果按62.5萬個芯片計算,那么每個芯片分?jǐn)偝杀炯s為240-320美元,總計成本大約409-489美元之間,略微低于直接購買英偉達(dá)Orin。不過自研芯片對加強(qiáng)品牌形象,提升科技感和市值幫助極大,間接收益遠(yuǎn)高于直接成本。
40核心應(yīng)該不是CPU的核心,雖然小鵬官方網(wǎng)站英文介紹是40核心CPU,但上圖寫得明白是40核心處理器,這個很好推測,大概率是24個ARM Cortex-A78AE內(nèi)核,12個ARM MALI-G78AE 內(nèi)核,4個ARM Cortex-R52內(nèi)核做安全島,加起來就是40核心。這個CPU算力大約是460kDMIPS,沒有蔚來的芯片高。當(dāng)然也不排除是32個A78AE內(nèi)核,6個G78AE GPU核心,2個R52核心。MALI -G78AE是ARM為汽車領(lǐng)域設(shè)計的GPU核心,原型是為手機(jī)領(lǐng)域設(shè)計的MALI-G78。14核心基礎(chǔ)頻率760MHz的MALI-G78AE的算力是1360GFLOPS@FP32。
小鵬在宣傳上提到了DSA (Domain Specific Architecture,領(lǐng)域?qū)S眉軜?gòu)),實(shí)際NPU就是一種DSA。CNN時代AI加速器一般叫NPU,大模型transformer時代則多叫DSA。智駕領(lǐng)域的算法從過去基于CNN算法的多個不同任務(wù)的感知網(wǎng)絡(luò)向以Transformer為基礎(chǔ)框架的BEV大模型演進(jìn)。BEV作為新一代自動駕駛感知算法,在傳統(tǒng)CNN加速芯片上部署難度極大甚至完全無法部署。Transformer模型對訪存要求相對傳統(tǒng)CNN算法會高出很多,需要較高的存儲帶寬,同時Transformer內(nèi)的非線性層有非常高的精度要求,相應(yīng)需要更多的浮點(diǎn)計算資源,而絕大多數(shù)AI加速器都是定點(diǎn)整數(shù)計算資源。其次Attention模塊是一個matmul-softmax-matmul的結(jié)構(gòu),在序列長度比較大時,Reduce維度的計算對Vector(向量)計算資源要求非常多。此外BEV模型里Grid Sample算法里還有一些類似聚合、分散的特殊算子。所有這些計算需求在傳統(tǒng)AI芯片的硬件上難以滿足,需要近似CPU的運(yùn)算資源。
DSA非常簡單,典型代表就是谷歌的TPU,近來針對AI運(yùn)算的DSA高度雷同,也沒什么技術(shù)門檻。簡單地說就是在NPU的MAC陣列上加入了標(biāo)量運(yùn)算和向量運(yùn)算單元。
標(biāo)量算力,主要用于邏輯控制,任務(wù)調(diào)度。
向量算力,主要用于激活、池化、排序等計算。
矩陣算力,主要是矩陣乘法,用于卷積,全連接等計算。
隨著算力專有程度的提高,其算力通用性也會降低,算力的可編程性變差。打個比方,我們分別把矩陣算力、向量算力和標(biāo)量算力,類比作飛機(jī),高鐵和汽車三種交通工具。飛機(jī),速度最快,但乘坐成本最高,且只能往來于特定的幾個機(jī)場站點(diǎn);高鐵,速度相對較快,準(zhǔn)備工作相對較少,高鐵站的數(shù)量也相對較多;汽車,速度相較最慢,但便捷性最高,也無需額外的準(zhǔn)備工作。標(biāo)量算力是最通用的算力,可以從功能上覆蓋向量計算和矩陣計算,且理論上可以覆蓋幾乎所有的計算需求;同理,向量計算也可以覆蓋矩陣計算的功能;最后,矩陣計算,其算力專有程度最高,只能用于矩陣計算。但隨著算力專有程度變高,越容易堆疊算力,算力的能效比也越高。由于矩陣算力的可編程性較差,需要借助算子庫或者DSL(Domain Specific Language)才能把矩陣算力很好的利用起來。向量算力用于保證DSA的可編程性和兼容性,如TPU、NPU中的Vector Unit,GPGPU中的CUDA core;標(biāo)量算力則主要用于邏輯控制。
從2018年開始,谷歌的第三代TPU就是標(biāo)量向量矩陣都具備了。
TPU第五代TPUv5e和TPUv5P與第三代沒有本質(zhì)變化
谷歌幾代TPU只是增加了HBM的容量和帶寬,實(shí)際英偉達(dá)也是如此,變化的只是HBM的容量和帶寬,架構(gòu)都是換湯不換藥。
最后來說一說小鵬支持的300億參數(shù)大模型。Roofline Model可以看出平均帶寬需求和峰值計算能力如天花板一樣是整個系統(tǒng)計算的能力上限,以計算強(qiáng)度上限Imax為界,劃分出AI芯片的兩個瓶頸區(qū)域,即圖中橘色的內(nèi)存受限區(qū)(Memory Bound)和圖中藍(lán)色的計算受限區(qū)(Compute Bound)。存儲決定了下限,計算決定了上限。因?yàn)?Decoding 階段 Token 逐個處理,使用 KV Cache 之后, Multi-Head Attention 里的矩陣乘矩陣操作全部降級為矩陣乘向量即GEMV。除此之外,Transformer 模型中的另一個關(guān)鍵組件 FFN 中主要也包含兩個矩陣乘法操作,但Token之間不會交叉融合,也就是任何一個Token都可以獨(dú)立計算,因此在Decoding階段不用Cache之前的結(jié)果,但同樣會出現(xiàn)矩陣乘矩陣操作降級為矩陣乘向量。Prefill階段則是GEMM,矩陣與矩陣的乘法。GEMV是訪存密集型操作,性能完全取決于存儲帶寬。
支持大模型參數(shù)數(shù)量由存儲帶寬和外在的存儲容量決定,假設(shè)一個大模型參數(shù)為300億,按照車載的INT8精度,它所占的存儲是30GB,如果是英偉達(dá)的RTX4090,它的顯存帶寬是1008GB/s,也就是每30毫秒生成一個token,這個就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s,也就是每471毫秒生成一個token,幀率不到3Hz,自動駕駛領(lǐng)域一般圖像幀率是30Hz,而英偉達(dá)的Orin存儲帶寬是204.5GB/s,即每146毫秒生成一個token,勉強(qiáng)可以達(dá)到7Hz,注意這只是計算的數(shù)據(jù)搬運(yùn)所需要的時間,數(shù)據(jù)計算的時間都完全忽略了,要做到30Hz,帶寬至少要提高5倍,也就是1TB/s。實(shí)際情況遠(yuǎn)比這個復(fù)雜的多,車載領(lǐng)域不是傳統(tǒng)LLM使用CPU和GPU分離形式,車載領(lǐng)域的計算SoC都是將CPU和AI運(yùn)算部分合二為一,AI運(yùn)算部分通常是GPU或加速器,是和CPU共享內(nèi)存的,而在非車載領(lǐng)域,GPU或AI運(yùn)算部分有獨(dú)立的存儲,即顯存。車載領(lǐng)域共享內(nèi)存一般是LPDDR,它主要是為CPU設(shè)計的,注重速度即頻率而非帶寬,不像顯存,一般是GDDR或HBM,注重帶寬,不看重頻率高低。上述所有理論都是基于顯存的,在車載領(lǐng)域共享LPDDR,其性能遠(yuǎn)遠(yuǎn)低于單獨(dú)配置的顯存,無論是速度還是容量,共享存儲都必須遠(yuǎn)比單獨(dú)的顯存要高才能做到大模型推理計算。
車載領(lǐng)域存儲比算力重要很多,最好的解決辦法是HBM,但太貴了,32GB HBM2最低成本也得2000美元,汽車領(lǐng)域?qū)r格還是比較敏感的,退而求其次,就是GDDR了。GDDR6的成本遠(yuǎn)低于HBM,32GB GDDR6大概只要180美元或更低。