特斯拉在AI Day推出Dojo深度學習訓練用芯片,更準確地說應該是Dojo深度學習訓練系統(tǒng),讓特斯拉粉絲興奮不已,馬斯克大神地位進一步加強。不過大部分人冷眼旁觀,特斯拉在第二天的股票市場上弱于大勢,微漲1.01%,而第二天的納斯達克指數(shù)漲幅為1.19%,特斯拉粉絲認為應該被拉下神壇的英偉達卻大漲5.14%,報208.16,創(chuàng)上市以來最高值,至少投資界沒人看好特斯拉的訓練芯片。
特斯拉Dojo深度學習訓練用首秀,實際應該是臺積電InFO_SoW (System-on-Wafer)首秀,臺積電于2020年6月底在IEEE上發(fā)表論文https://ieeexplore.ieee.org/document/9159219,特斯拉是第二個使用此設計方案的人,第一個是Cerebras,不過Cerebras的產(chǎn)品9月份才會正式推出,所以特斯拉算首秀。
圖片來源:互聯(lián)網(wǎng)
目前最強的訓練用處理器是英偉達的A100。性能如下表。
圖片來源:互聯(lián)網(wǎng)
特斯拉Dojo性能如下
圖片來源:互聯(lián)網(wǎng)
TF32是Tensor Float 32的縮寫,在深度學習中,其實我們對浮點數(shù)的表示范圍比較看重,而有效數(shù)字不是那么重要。在這個前提下,TF直接就把 FP32 中 23 個分數(shù)值截短為 10 bits,而指數(shù)位仍為 8 bits,總長度為 19 (=1 + 8 +10) bits。借助 NVIDIA 開發(fā)的深度學習庫,用戶可以無感地使用 TF32 而無需任何額外的操作。底層庫會自動地將 FP32 轉(zhuǎn)換為 TF32 進行計算,并將結(jié)果再轉(zhuǎn)換為 FP32。
Brain Float 16 格式是 Google 在 TensorFlow 中引入的新數(shù)據(jù)類型,其可以認為是直接將 FP32 的前16位截取獲得的。至于設計思路和上面的 TF32 是一樣的,都是深度學習對表示范圍敏感而對精度不敏感。但是 Google 更加暴力,直接將分數(shù)值砍到只剩下 7 bits。
訓練領域?qū)纫蟾?,因此FP64必不可少,特別在醫(yī)療(模擬心臟)和氣象領域(預測大西洋颶風)以及航天領域,汽車領域主要是圖像識別精度要求不高,F(xiàn)P32足夠,甚至近期有人提出FP8就夠了。FP64精度下的性能參數(shù),特斯拉很聰明地不提供,也可能特斯拉的Dojo就不支持FP64精度。英偉達A100是專業(yè)訓練芯片,提供最全的精度模式,包括FP32和TF32。局部性能弱于特斯拉Dojo,但差距很小,在最常用的BF16精度下,英偉達是比特斯拉強很多的。通常認為推理的精度至少要INT8,而特斯拉覺得訓練精度CFP8就夠了。英偉達顯然不會支持CFP8。
A100有542億個晶體管,特斯拉Dojo是500億個,英偉達A100裸晶面積是826平方毫米,特斯拉是645平方毫米,兩者都是7納米,不過英偉達A100要比特斯拉早上1年多,加上英偉達的GPU安培架構(gòu)在晶體管密度上天生弱勢(多說幾句,特斯拉晶圓利用效率最高的是2017年的Volta架構(gòu)有95%,安培架構(gòu)只有88%,2012年的開普勒和2016年的帕斯卡都有93%),因此,特斯拉明顯占優(yōu),這也意味著特斯拉的成本更低。不過功耗方面,英偉達明顯占優(yōu),PCIe版只有250瓦。
圖片來源:互聯(lián)網(wǎng)
實際這是臺積電左右互搏,英偉達使用的是Flip-Chip MCM技術(shù),AMD的CPU也是如此,英偉達自己叫Multi-Instance GPU (MIG) ,A100是最多允許7個,也就是8個芯片級聯(lián)。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具備壓倒性優(yōu)勢,理論性能是Flip-Chip MCM兩倍以上。且級聯(lián)數(shù)量可達幾十乃至上百個,臺積電原型達到49個,特斯拉的Dojo是25個。臺積電的核心優(yōu)勢不是3納米或2納米的先進工藝,而是芯片的3D系統(tǒng)級封裝,單憑這一項,足以秒殺三星,即便三星量產(chǎn)0.5納米,沒有先進封裝的幫助,所有高性能芯片還是95%在臺積電下單。
對AI來說,存儲器對指令和數(shù)據(jù)的搬運(寫入和讀出)的時間是運算單元運算所消耗時間的幾十倍乃至幾百倍。換句話說,很多AI芯片所描述的實際算力會因為存儲器的因素降低50%甚至90%。即內(nèi)存墻問題。提高AI處理器最有效的方法是減小運算單元與存儲器之間的物理距離。這也是這15年來高性能芯片封裝技術(shù)發(fā)展的主要目標,這不僅可以提高算力,還能降低功耗減少發(fā)熱。
眾所周知,處理器跟內(nèi)存之間的距離越短,則處理器的運算延遲越低。而這也是當代的高效能處理器普遍內(nèi)建三級緩存的原因--緩存的容量越大,則處理器需要從內(nèi)存搬移數(shù)據(jù)的機率越低,整個系統(tǒng)的效能與功耗也能因而獲得明顯改善。 圖上的線寬5微米是RDL(再分布層) 1-3層情況下的結(jié)果,如果RDL4-6層,線寬會增加到15/20微米。
圖片來源:互聯(lián)網(wǎng)
特斯拉Dojo核心層,特斯拉為更好系統(tǒng)整合,沒有采用正圓形,而是做了一點修改,類似于八邊形。
圖片來源:互聯(lián)網(wǎng)
SoW是整體冷盤,不像以前的方案,只有一條線,散熱效率大大提升,此外也可以用水冷散熱。
SoW通過了服務器領域溫度測試標準。圖片來源:互聯(lián)網(wǎng)
圖片來源:互聯(lián)網(wǎng)
優(yōu)點多多,成本和良率也很好,可以使用成熟的InFO工藝,KGD芯片。
圖片來源:互聯(lián)網(wǎng)
不加任何散熱的情況,12英寸晶圓大小最高支持到7千瓦,特斯拉外加散熱器,提高到了15000瓦。
圖片來源:互聯(lián)網(wǎng)
英偉達的A100,使用2代HBM內(nèi)存,存儲帶寬只有1.6TB/s。特斯拉則大手筆不計成本,全部采用片上SRAM,帶寬達到驚人的4TB/s。 特斯拉的垂直模式也比業(yè)界常用的平面模式要強很多,功率密度大大提升。 說回芯片本身的設計,特斯拉和Cerebras如出一轍,Cerebras比特斯拉還要瘋狂,CerebrasWSE2單芯片有2.6萬億晶體管,是特斯拉的50倍,芯片面積達46225平方毫米,擁有85萬內(nèi)核,這么大芯片的良率會非常低,估計不到10%,估計單芯片就要50萬美元甚至100萬美元以上。當然芯片也是臺積電制造的,利潤的大部分都歸臺積電。
圖片來源:互聯(lián)網(wǎng)
Cerebras的稀疏矩陣數(shù)據(jù)流,汽車圖像識別中很大一步矩陣值都是零,大面積的空洞即天空,因此屬于標準的稀疏矩陣,而醫(yī)療、氣象領域則多稠密矩陣。算力方面特斯拉300個D1芯片,即12個Dojo單元算力是108PFlops,每個單元是9PFlops,功率是180千瓦,每瓦PFlops算力是0.6。Cerebras是每個單元(即CS-1服務器)含15個WSE2,算力是23PFlops,功率20千瓦(CS-1是水冷設計),每瓦PFlops算力是1.15。不過價格Cerebras可能是特斯拉的10倍甚至更多。
圖片來源:互聯(lián)網(wǎng)
特斯拉的訓練節(jié)點矩陣架構(gòu),跟Cerebras很近似。
特斯拉的垂直運算系統(tǒng)非常新穎,算是亮點。核心技術(shù)還是臺積電掌握,芯片設計本身平淡無奇,沒有什么亮點。