加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

特斯拉數(shù)據(jù)訓練用芯片Dojo D1與傳統(tǒng)巨頭相比相去甚遠

2022/09/19
2859
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論
在8月底的Hot Chips 34大會上,特斯拉公布了其數(shù)據(jù)訓練用芯片Dojo更進一步的細節(jié),和AMD的消費級顯卡RX6900 XT相比算力有差距,而特斯拉的Dojo價格估計至少是AMD RX6900 XT顯卡芯片的10倍以上。

特斯拉、英偉達和AMD之AI訓練芯片對比

 
 

AMD具備壓倒性絕對優(yōu)勢,不過MI250已對中國禁運。臺積電是最大受益者,高端AI芯片被臺積電壟斷,市場占有率至少在95%以上。英偉達的A100推出比較早,是在2020年初推出的,其余都是2021年推出的。AMD的MI250最晚推出,其時間在2021年11月。

 
特斯拉的Dojo完全是內(nèi)部自用,對外銷售的話,性價比太低,不可能有市場。同時其為了達到最高的存儲性能,使用了SRAM,但缺點就是容量很低,不到0.5GB。不可能運行大的模型,讓其適用范圍非常窄小,完全沒有考慮市場需求,而AMD和英偉達充分考慮了市場需求。
在去年特斯拉推出的整個系統(tǒng)級方案,見下圖。

這個是臺積電最昂貴的InFO_SoW技術,每個Dojo包含25顆D1芯片。一個晶圓就是一個系統(tǒng),就是一個AI訓練盒子。臺積電原型達到49個,特斯拉的Dojo是25個。臺積電的核心優(yōu)勢不是3納米或2納米的先進工藝,而是芯片的3D系統(tǒng)級封裝,單憑這一項,足以秒殺三星,即便三星量產(chǎn)0.5納米,沒有先進封裝的幫助,高性能芯片還是95%在臺積電下單。SoW是整體冷盤,不像以前的方案,只有一條線,散熱效率大大提升,此外也可以用水冷散熱。最高支持1500瓦功率,不過價格極高,從研發(fā)完成只有特斯拉一個客戶。
InFO_SoW 示意圖

今年特斯拉推出了簡化版Dojo,只包含兩個芯片,稱之為V1 Dojo Interface Processor(下簡稱V1 Dojo),似乎有意對外銷售。

上面的兩個大芯片就是V1 Dojo,這個類似英偉達DPU的概念。

與2021年的Tile構(gòu)成完整的系統(tǒng)。

具體系統(tǒng)搭配示例

這個V1 Dojo從外觀就可以看出使用了HBM,此外推測V1 Dojo芯片也是三星代工的。

V1 Dojo應該可以做推理用,但估計特斯拉的第二代FSD即HW4.0的芯片還不會用HBM,太貴了。

接下來我們回頭看D1的微架構(gòu),D1的微架構(gòu)參考了很早以前IBM的cell SPE.

 

2005年推出的IBM Cell 處理器具有八個“協(xié)同處理元件”(Synergistic Processing Elements)或 SPE,由一個功能齊全的CPU內(nèi)核(“電源處理元件”或 PPE:Power Processing Element)控制。Dojo與SPE有很多相似之處。Dojo和SPE都針對矢量處理進行了優(yōu)化,并且依賴于單獨的主機處理器進行工作分配。在Dojo或SPE上運行的代碼不能直接訪問系統(tǒng)內(nèi)存。相反,應用程序預計主要在一小部分本地SRAM中工作。此本地SRAM由軟件管理,不能用作緩存。如果需要來自主存儲器的數(shù)據(jù),則必須使用DMA操作將其引入。不過IBM Cell的目標市場是游戲機,有點和GPU競爭的意味,2017年IBM推出TrueNorth真北,當時還有意進軍智能汽車領域,不過真北也很快被英偉達的GPU所淹沒。

Dojo是一個8路解碼,4路超線程SMT,因為散熱不佳,運行在保守的2 GHz。它有點像GPU,有354核心,但更像CPU,因為其擁有具有CPU風格的pipeline,使其比GPU更能容忍不同的算法和分支代碼。Dojo的指令集在標量方面類似于RISC-V,但Tesla的工程師添加了一組自定義向量指令,專注于加速機器學習。

8路解碼是目前CPU的天花板,這是決定CPU性能的最關鍵之處。ARM每年擠牙膏式升級就是如此,2012年的A53是2路,同年的高性能版A57是3路,2015年的A72還是3路,2018年的A76是4路,2020年A78還是4路,同年的X1是5路,而服務器版的ARM如英偉達下一代自動駕駛用的Atlan用的ARM波塞冬架構(gòu),最高已經(jīng)有8路。當然擴展解碼路數(shù)也不是那么簡單,整體設計會因此復雜度大幅度增加,面積增加,進而導致成本增加,解決辦法就是更先進的制造工藝,這也是ARM的每一代都需要搭配更先進的制造工藝才能行,否則成本大增。

 

特斯拉在這里用詞含糊不清,8路解碼來達到每周期兩線程,讓人懷疑實際上是4路解碼,另外一個線程是虛擬出來的。

 

每個核心直接使用1.25MB的SRAM,而不是CPU用的那么復雜的多級緩存設置和多種緩存設置。

 

特斯拉采用傳統(tǒng)的2D mesh網(wǎng)絡做NOC。NOC即片上網(wǎng)絡。片上網(wǎng)絡有很多種,有星形(Star)連接、環(huán)形(Ring)連接和網(wǎng)格(Mesh)連接,2D mesh是成本最低的一種,也是比較早的一種,特斯拉可能是模仿了IBM的真北TrueNorth,真北也是2D mesh,連接了4096核心。國內(nèi)大多是采用Arteris的NOC,黑芝麻、杰發(fā)科技、地平線、芯擎、瑞芯微、國民技術、華為、全志、炬力、展訊都是如此。Arteris曾經(jīng)是高通的子公司,后獨立上市。英特爾在2019年收購了Netspeed,F(xiàn)acebook在2019年收購了Sonics,這兩家的NoC使用面遠不及高通的Arteris。

 

354個核心通過2D mesh連接。

 

特斯拉增加了三條指令集,特別針對矢量做了處理。

特斯拉自己打造訓練數(shù)據(jù)中心,推測其主要還是為了將特斯拉打造成科技巔峰公司的形象,讓特斯拉的科技粉絲越來越多,最終的結(jié)果是特斯拉品牌溢價率極高,再普通的產(chǎn)品,加上特斯拉的品牌都是無價之寶。這比花幾十億做廣告的效果要好得多。

 
特斯拉

特斯拉

Tesla 致力于通過電動汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過電動汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領域的產(chǎn)業(yè)研究、專項調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務。