加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • Part 1、電源和帶寬設(shè)計(jì)
    • Part 2、Dojo的軟件系統(tǒng)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

特斯拉Dojo計(jì)算平臺(tái)有哪些值得關(guān)注的?

2022/10/08
1211
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

特斯拉AI Day發(fā)布會(huì),Dojo這個(gè)特斯拉自己定制超級(jí)計(jì)算平臺(tái),它的出現(xiàn)是從頭開始構(gòu)建,用于自動(dòng)駕駛視頻數(shù)據(jù)進(jìn)行視頻訓(xùn)練。主要兩個(gè)目的:其一是比市售云計(jì)算更便宜;其二是比市售云計(jì)算更強(qiáng)大——從某種意義上,特斯拉和Jeff Bezos 是不對(duì)付的,所以特斯拉是希望與亞馬遜 AWS 相提并論,使用在線提供的服務(wù),可以用更少的錢、更快地訓(xùn)練模型。

特斯拉已有是基于 NVIDIA GPU 的大型超級(jí)計(jì)算機(jī),新的 Dojo 定制計(jì)算機(jī),是在設(shè)計(jì)層面做有效的突破。

圖1. Dojo的計(jì)算效果

 

Dojo Exapod規(guī)格:1.1 EFLOP、1.3 TB SRAM 和 13 TB 高帶寬 DRAM。

從設(shè)計(jì)之初,硬件層面要為深度的神經(jīng)網(wǎng)絡(luò)訓(xùn)練做考慮,從芯片到機(jī)組再到機(jī)房的傳輸帶寬都是非常擴(kuò)展,將Occupancy網(wǎng)絡(luò)應(yīng)用于Dojo系統(tǒng)之中,實(shí)現(xiàn)了AI硬件與AI軟件的更佳匹配,最后在降低延遲和性能損失上取得的效果十分驚人。

 

▲圖2. 特斯拉的ExaPOD效果圖

 

Dojo超級(jí)計(jì)算機(jī)系統(tǒng)的未來路線圖如下:

▲圖3. Dojo的整體Roadmap

Part 1、電源和帶寬設(shè)計(jì)

1)電源供給

在技術(shù)部分,好的計(jì)算模塊需要非常特制的電源設(shè)計(jì),在這里電壓調(diào)節(jié)模塊可以傳輸1000A電流,具有超高密度,利用多層垂直電源管理材料過渡。這個(gè)設(shè)計(jì)具有高性能、高密度(0.86A/mm²)、復(fù)雜集成性,未來的目標(biāo)是減少54%的CTE,提升3倍性能。在這里提高功率密度是提升系統(tǒng)性能的核心和基石,有趣的是特斯拉在24個(gè)月內(nèi)設(shè)計(jì)更新了14個(gè)版本。

在這個(gè)電源設(shè)計(jì)中,充分考慮了電容、時(shí)鐘和振動(dòng)特性。

 端子連接電容來減少振動(dòng)

● MEMS時(shí)鐘可以有10倍更低的Q-Factor

 下一步優(yōu)化開關(guān)頻率

▲圖4. 配套的電源模塊

 

▲圖5. Training Tile的結(jié)構(gòu)

 

2)可擴(kuò)展的系統(tǒng)

系統(tǒng)集合,包含了功率、結(jié)構(gòu)和散熱三部分,這個(gè)最小單元System Tray參數(shù):75mm高度、54 PFLOPS(BF16/CFP8)、13.4 TB/S(對(duì)分帶寬)、100+ KW Power

Standard Interface Processor參數(shù):32GB(高帶寬動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器、900 TB/S(TTP帶寬)、50 GB/S以太網(wǎng)帶寬)、32GB/S(第四代PCI帶寬)

High Interface Processor參數(shù):640GB(高帶寬動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)、1TB/S(以太網(wǎng)帶寬)、18 TB/S(Aggregate Bandwidth To Tiles)

▲圖6. System Tray

 

▲圖7. Dojo Host 接口

 

對(duì)應(yīng)32GB高傳輸頻寬存儲(chǔ)、每秒900TB資料傳輸量,以及每秒可對(duì)應(yīng)50GB資料傳輸量的網(wǎng)路傳輸頻寬的Dojo接口處理器

▲圖8. Dojo的接口處理器

 

下圖是Dojo的時(shí)間進(jìn)度表。

▲圖9. Dojo 的時(shí)間進(jìn)度

 

Part 2、Dojo的軟件系統(tǒng)

Dojo系統(tǒng)建立目標(biāo):解決很難形成規(guī)模的約束模型。

▲圖10. 軟件的優(yōu)化目標(biāo)

 

單一的加速器到前向和后向通道、優(yōu)化器、多個(gè)加速器上運(yùn)行多個(gè)副本的流程。更大激活度的模型想運(yùn)行前向通道時(shí)會(huì)遇到適合單個(gè)加速器的批量大小往往小于批量規(guī)范面的問題;多個(gè)加速器上設(shè)置同步批量規(guī)范模式。

高密度集成是為了加速模型的計(jì)算約束和延遲約束部分;Dojo網(wǎng)格的一個(gè)片斷可以被分割出來運(yùn)行模型(只要分片足夠大);統(tǒng)一的低延遲中的細(xì)粒度同步原語加速跨集成邊界的并行性;Tensors是以RAM的形式存儲(chǔ)Chardon,并在各層執(zhí)行時(shí)及時(shí)復(fù)制;張量復(fù)制的另一個(gè)數(shù)據(jù)傳輸與計(jì)算重疊,編譯器也可重新計(jì)算層。

▲圖11. 網(wǎng)絡(luò)模型

 

編譯器以模型并行的方式映射,通信階段從節(jié)點(diǎn)計(jì)算本地平均值和標(biāo)準(zhǔn)偏差開始;協(xié)調(diào)后繼續(xù)并行。從編譯器中提取通信樹;真實(shí)硬件的時(shí)間節(jié)點(diǎn),中間輻射減少的值由硬件加速;這個(gè)操作在25個(gè)Dojo編譯器上只需要5微秒,同樣的操作在24個(gè)GPU上需要150微秒。這是對(duì)GPU的一個(gè)數(shù)量級(jí)的改進(jìn)。

▲圖12. 對(duì)比的結(jié)果

 

Dojo是為解決更大的復(fù)雜模型而建立的,當(dāng)前兩個(gè)GPU集群的使用模式,

● 自動(dòng)標(biāo)注網(wǎng)絡(luò)(用于生成地面真相的離線模型)

 占有率網(wǎng)絡(luò)(高算術(shù)強(qiáng)度的大型模型)

測(cè)試結(jié)果:多模系統(tǒng)上對(duì)GPU和Dojo進(jìn)行的測(cè)量顯示已經(jīng)可以超越任何100個(gè)使用當(dāng)前硬件運(yùn)行的老一代PRMS的性能;A100的吞吐量翻了一番;關(guān)鍵的編譯器優(yōu)化達(dá)到M100的3倍以上的性能。

目前來看,一個(gè)Dojo可以取代6個(gè)GPU盒子上的ML計(jì)算機(jī),而成本比一個(gè)GPU盒子還低,目前一個(gè)多月時(shí)間來訓(xùn)練的網(wǎng)絡(luò)現(xiàn)在只需要不到一個(gè)星期

▲圖13. Dojo的特性對(duì)比

 

小結(jié):這些信息感覺都是為了給全球的工程師的,也是給出了很多的技術(shù)發(fā)展的方向,有些像之前開放專利的模式,為了進(jìn)一步招納年輕的工程師準(zhǔn)備的。

特斯拉

特斯拉

Tesla 致力于通過電動(dòng)汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過電動(dòng)汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

筆者 朱玉龍,一名汽車行業(yè)的工程師,2008年入行,做的是讓人看不透的新能源汽車行業(yè)。我學(xué)的是測(cè)試和電路,從汽車電子硬件開始起步,現(xiàn)在在做子系統(tǒng)和產(chǎn)品方面的工作。汽車產(chǎn)業(yè)雖然已經(jīng)被人視為夕陽產(chǎn)業(yè),不過我相信未來衣食住行中的行,汽車仍是實(shí)現(xiàn)個(gè)人自由的不二工具,愿在汽車電子電氣的工程方面耕耘和努力,更愿與同行和感興趣的朋友分享見解。