AMD具備壓倒性絕對優(yōu)勢,不過MI250已對中國禁運。臺積電是最大受益者,高端AI芯片被臺積電壟斷,市場占有率至少在95%以上。英偉達的A100推出比較早,是在2020年初推出的,其余都是2021年推出的。AMD的MI250最晚推出,其時間在2021年11月。
今年特斯拉推出了簡化版Dojo,只包含兩個芯片,稱之為V1 Dojo Interface Processor(下簡稱V1 Dojo),似乎有意對外銷售。
上面的兩個大芯片就是V1 Dojo,這個類似英偉達DPU的概念。
與2021年的Tile構(gòu)成完整的系統(tǒng)。
具體系統(tǒng)搭配示例
這個V1 Dojo從外觀就可以看出使用了HBM,此外推測V1 Dojo芯片也是三星代工的。
V1 Dojo應該可以做推理用,但估計特斯拉的第二代FSD即HW4.0的芯片還不會用HBM,太貴了。
接下來我們回頭看D1的微架構(gòu),D1的微架構(gòu)參考了很早以前IBM的cell SPE.
2005年推出的IBM Cell 處理器具有八個“協(xié)同處理元件”(Synergistic Processing Elements)或 SPE,由一個功能齊全的CPU內(nèi)核(“電源處理元件”或 PPE:Power Processing Element)控制。Dojo與SPE有很多相似之處。Dojo和SPE都針對矢量處理進行了優(yōu)化,并且依賴于單獨的主機處理器進行工作分配。在Dojo或SPE上運行的代碼不能直接訪問系統(tǒng)內(nèi)存。相反,應用程序預計主要在一小部分本地SRAM中工作。此本地SRAM由軟件管理,不能用作緩存。如果需要來自主存儲器的數(shù)據(jù),則必須使用DMA操作將其引入。不過IBM Cell的目標市場是游戲機,有點和GPU競爭的意味,2017年IBM推出TrueNorth真北,當時還有意進軍智能汽車領域,不過真北也很快被英偉達的GPU所淹沒。
Dojo是一個8路解碼,4路超線程SMT,因為散熱不佳,運行在保守的2 GHz。它有點像GPU,有354核心,但更像CPU,因為其擁有具有CPU風格的pipeline,使其比GPU更能容忍不同的算法和分支代碼。Dojo的指令集在標量方面類似于RISC-V,但Tesla的工程師添加了一組自定義向量指令,專注于加速機器學習。
8路解碼是目前CPU的天花板,這是決定CPU性能的最關鍵之處。ARM每年擠牙膏式升級就是如此,2012年的A53是2路,同年的高性能版A57是3路,2015年的A72還是3路,2018年的A76是4路,2020年A78還是4路,同年的X1是5路,而服務器版的ARM如英偉達下一代自動駕駛用的Atlan用的ARM波塞冬架構(gòu),最高已經(jīng)有8路。當然擴展解碼路數(shù)也不是那么簡單,整體設計會因此復雜度大幅度增加,面積增加,進而導致成本增加,解決辦法就是更先進的制造工藝,這也是ARM的每一代都需要搭配更先進的制造工藝才能行,否則成本大增。
特斯拉在這里用詞含糊不清,8路解碼來達到每周期兩線程,讓人懷疑實際上是4路解碼,另外一個線程是虛擬出來的。
每個核心直接使用1.25MB的SRAM,而不是CPU用的那么復雜的多級緩存設置和多種緩存設置。
特斯拉采用傳統(tǒng)的2D mesh網(wǎng)絡做NOC。NOC即片上網(wǎng)絡。片上網(wǎng)絡有很多種,有星形(Star)連接、環(huán)形(Ring)連接和網(wǎng)格(Mesh)連接,2D mesh是成本最低的一種,也是比較早的一種,特斯拉可能是模仿了IBM的真北TrueNorth,真北也是2D mesh,連接了4096核心。國內(nèi)大多是采用Arteris的NOC,黑芝麻、杰發(fā)科技、地平線、芯擎、瑞芯微、國民技術、華為、全志、炬力、展訊都是如此。Arteris曾經(jīng)是高通的子公司,后獨立上市。英特爾在2019年收購了Netspeed,F(xiàn)acebook在2019年收購了Sonics,這兩家的NoC使用面遠不及高通的Arteris。
354個核心通過2D mesh連接。
特斯拉增加了三條指令集,特別針對矢量做了處理。
特斯拉自己打造訓練數(shù)據(jù)中心,推測其主要還是為了將特斯拉打造成科技巔峰公司的形象,讓特斯拉的科技粉絲越來越多,最終的結(jié)果是特斯拉品牌溢價率極高,再普通的產(chǎn)品,加上特斯拉的品牌都是無價之寶。這比花幾十億做廣告的效果要好得多。