大陆国产乱人伦AⅤ,97超级碰碰碰碰久久,性猛交富婆╳xxx乱大交

特斯拉在AI Day推出Dojo深度學習訓練用芯片，更準確地說應該是Dojo深度學習訓練系統(tǒng)，讓特斯拉粉絲興奮不已，馬斯克大神地位進一步加強。不過大部分人冷眼旁觀，特斯拉在第二天的股票市場上弱于大勢，微漲1.01%，而第二天的納斯達克指數(shù)漲幅為1.19%，特斯拉粉絲認為應該被拉下神壇的英偉達卻大漲5.14%，報208.16，創(chuàng)上市以來最高值，至少投資界沒人看好特斯拉的訓練芯片。

特斯拉Dojo深度學習訓練用首秀，實際應該是臺積電InFO_SoW (System-on-Wafer)首秀，臺積電于2020年6月底在IEEE上發(fā)表論文https://ieeexplore.ieee.org/document/9159219，特斯拉是第二個使用此設計方案的人，第一個是Cerebras，不過Cerebras的產(chǎn)品9月份才會正式推出，所以特斯拉算首秀。

圖片來源：互聯(lián)網(wǎng)

目前最強的訓練用處理器是英偉達的A100。性能如下表。

圖片來源：互聯(lián)網(wǎng)

特斯拉Dojo性能如下

圖片來源：互聯(lián)網(wǎng)

TF32是Tensor Float 32的縮寫，在深度學習中，其實我們對浮點數(shù)的表示范圍比較看重，而有效數(shù)字不是那么重要。在這個前提下，TF直接就把 FP32 中 23 個分數(shù)值截短為 10 bits，而指數(shù)位仍為 8 bits，總長度為 19 (=1 + 8 +10) bits。借助 NVIDIA 開發(fā)的深度學習庫，用戶可以無感地使用 TF32 而無需任何額外的操作。底層庫會自動地將 FP32 轉(zhuǎn)換為 TF32 進行計算，并將結(jié)果再轉(zhuǎn)換為 FP32。

Brain Float 16 格式是 Google 在 TensorFlow 中引入的新數(shù)據(jù)類型，其可以認為是直接將 FP32 的前16位截取獲得的。至于設計思路和上面的 TF32 是一樣的，都是深度學習對表示范圍敏感而對精度不敏感。但是 Google 更加暴力，直接將分數(shù)值砍到只剩下 7 bits。

訓練領域?qū)纫蟾?，因此FP64必不可少，特別在醫(yī)療（模擬心臟）和氣象領域（預測大西洋颶風）以及航天領域，汽車領域主要是圖像識別精度要求不高，F(xiàn)P32足夠，甚至近期有人提出FP8就夠了。FP64精度下的性能參數(shù)，特斯拉很聰明地不提供，也可能特斯拉的Dojo就不支持FP64精度。英偉達A100是專業(yè)訓練芯片，提供最全的精度模式，包括FP32和TF32。局部性能弱于特斯拉Dojo，但差距很小，在最常用的BF16精度下，英偉達是比特斯拉強很多的。通常認為推理的精度至少要INT8，而特斯拉覺得訓練精度CFP8就夠了。英偉達顯然不會支持CFP8。

A100有542億個晶體管，特斯拉Dojo是500億個，英偉達A100裸晶面積是826平方毫米，特斯拉是645平方毫米，兩者都是7納米，不過英偉達A100要比特斯拉早上1年多，加上英偉達的GPU安培架構(gòu)在晶體管密度上天生弱勢（多說幾句，特斯拉晶圓利用效率最高的是2017年的Volta架構(gòu)有95%，安培架構(gòu)只有88%，2012年的開普勒和2016年的帕斯卡都有93%），因此，特斯拉明顯占優(yōu)，這也意味著特斯拉的成本更低。不過功耗方面，英偉達明顯占優(yōu)，PCIe版只有250瓦。

圖片來源：互聯(lián)網(wǎng)

實際這是臺積電左右互搏，英偉達使用的是Flip-Chip MCM技術(shù)，AMD的CPU也是如此，英偉達自己叫Multi-Instance GPU (MIG) ，A100是最多允許7個，也就是8個芯片級聯(lián)。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具備壓倒性優(yōu)勢，理論性能是Flip-Chip MCM兩倍以上。且級聯(lián)數(shù)量可達幾十乃至上百個，臺積電原型達到49個，特斯拉的Dojo是25個。臺積電的核心優(yōu)勢不是3納米或2納米的先進工藝，而是芯片的3D系統(tǒng)級封裝，單憑這一項，足以秒殺三星，即便三星量產(chǎn)0.5納米，沒有先進封裝的幫助，所有高性能芯片還是95%在臺積電下單。

對AI來說，存儲器對指令和數(shù)據(jù)的搬運（寫入和讀出）的時間是運算單元運算所消耗時間的幾十倍乃至幾百倍。換句話說，很多AI芯片所描述的實際算力會因為存儲器的因素降低50%甚至90%。即內(nèi)存墻問題。提高AI處理器最有效的方法是減小運算單元與存儲器之間的物理距離。這也是這15年來高性能芯片封裝技術(shù)發(fā)展的主要目標，這不僅可以提高算力，還能降低功耗減少發(fā)熱。

眾所周知，處理器跟內(nèi)存之間的距離越短，則處理器的運算延遲越低。而這也是當代的高效能處理器普遍內(nèi)建三級緩存的原因--緩存的容量越大，則處理器需要從內(nèi)存搬移數(shù)據(jù)的機率越低，整個系統(tǒng)的效能與功耗也能因而獲得明顯改善。圖上的線寬5微米是RDL（再分布層） 1-3層情況下的結(jié)果，如果RDL4-6層，線寬會增加到15/20微米。

圖片來源：互聯(lián)網(wǎng)

特斯拉Dojo核心層，特斯拉為更好系統(tǒng)整合，沒有采用正圓形，而是做了一點修改，類似于八邊形。

圖片來源：互聯(lián)網(wǎng)

SoW是整體冷盤，不像以前的方案，只有一條線，散熱效率大大提升，此外也可以用水冷散熱。

SoW通過了服務器領域溫度測試標準。圖片來源：互聯(lián)網(wǎng)

圖片來源：互聯(lián)網(wǎng)

優(yōu)點多多，成本和良率也很好，可以使用成熟的InFO工藝，KGD芯片。

圖片來源：互聯(lián)網(wǎng)

不加任何散熱的情況，12英寸晶圓大小最高支持到7千瓦，特斯拉外加散熱器，提高到了15000瓦。

圖片來源：互聯(lián)網(wǎng)

英偉達的A100，使用2代HBM內(nèi)存，存儲帶寬只有1.6TB/s。特斯拉則大手筆不計成本，全部采用片上SRAM，帶寬達到驚人的4TB/s。特斯拉的垂直模式也比業(yè)界常用的平面模式要強很多，功率密度大大提升。說回芯片本身的設計，特斯拉和Cerebras如出一轍，Cerebras比特斯拉還要瘋狂，CerebrasWSE2單芯片有2.6萬億晶體管，是特斯拉的50倍，芯片面積達46225平方毫米，擁有85萬內(nèi)核，這么大芯片的良率會非常低，估計不到10%，估計單芯片就要50萬美元甚至100萬美元以上。當然芯片也是臺積電制造的，利潤的大部分都歸臺積電。

圖片來源：互聯(lián)網(wǎng)

Cerebras的稀疏矩陣數(shù)據(jù)流，汽車圖像識別中很大一步矩陣值都是零，大面積的空洞即天空，因此屬于標準的稀疏矩陣，而醫(yī)療、氣象領域則多稠密矩陣。算力方面特斯拉300個D1芯片，即12個Dojo單元算力是108PFlops，每個單元是9PFlops，功率是180千瓦，每瓦PFlops算力是0.6。Cerebras是每個單元（即CS-1服務器）含15個WSE2，算力是23PFlops，功率20千瓦（CS-1是水冷設計），每瓦PFlops算力是1.15。不過價格Cerebras可能是特斯拉的10倍甚至更多。