在特斯拉AI Day發(fā)布會(huì),Dojo這個(gè)特斯拉自己定制超級(jí)計(jì)算平臺(tái),它的出現(xiàn)是從頭開始構(gòu)建,用于自動(dòng)駕駛視頻數(shù)據(jù)進(jìn)行視頻訓(xùn)練。主要兩個(gè)目的:其一是比市售云計(jì)算更便宜;其二是比市售云計(jì)算更強(qiáng)大——從某種意義上,特斯拉和Jeff Bezos 是不對(duì)付的,所以特斯拉是希望與亞馬遜 AWS 相提并論,使用在線提供的服務(wù),可以用更少的錢、更快地訓(xùn)練模型。
特斯拉已有是基于 NVIDIA GPU 的大型超級(jí)計(jì)算機(jī),新的 Dojo 定制計(jì)算機(jī),是在設(shè)計(jì)層面做有效的突破。
▲圖1. Dojo的計(jì)算效果
Dojo Exapod規(guī)格:1.1 EFLOP、1.3 TB SRAM 和 13 TB 高帶寬 DRAM。
從設(shè)計(jì)之初,硬件層面要為深度的神經(jīng)網(wǎng)絡(luò)訓(xùn)練做考慮,從芯片到機(jī)組再到機(jī)房的傳輸帶寬都是非常擴(kuò)展,將Occupancy網(wǎng)絡(luò)應(yīng)用于Dojo系統(tǒng)之中,實(shí)現(xiàn)了AI硬件與AI軟件的更佳匹配,最后在降低延遲和性能損失上取得的效果十分驚人。
▲圖2. 特斯拉的ExaPOD效果圖
Dojo超級(jí)計(jì)算機(jī)系統(tǒng)的未來路線圖如下:
▲圖3. Dojo的整體Roadmap
Part 1、電源和帶寬設(shè)計(jì)
1)電源供給
在技術(shù)部分,好的計(jì)算模塊需要非常特制的電源設(shè)計(jì),在這里電壓調(diào)節(jié)模塊可以傳輸1000A電流,具有超高密度,利用多層垂直電源管理材料過渡。這個(gè)設(shè)計(jì)具有高性能、高密度(0.86A/mm²)、復(fù)雜集成性,未來的目標(biāo)是減少54%的CTE,提升3倍性能。在這里提高功率密度是提升系統(tǒng)性能的核心和基石,有趣的是特斯拉在24個(gè)月內(nèi)設(shè)計(jì)更新了14個(gè)版本。
在這個(gè)電源設(shè)計(jì)中,充分考慮了電容、時(shí)鐘和振動(dòng)特性。
● 軟端子連接電容來減少振動(dòng)
● MEMS時(shí)鐘可以有10倍更低的Q-Factor
● 下一步優(yōu)化開關(guān)頻率
▲圖4. 配套的電源模塊
▲圖5. Training Tile的結(jié)構(gòu)
2)可擴(kuò)展的系統(tǒng)
系統(tǒng)集合,包含了功率、結(jié)構(gòu)和散熱三部分,這個(gè)最小單元System Tray參數(shù):75mm高度、54 PFLOPS(BF16/CFP8)、13.4 TB/S(對(duì)分帶寬)、100+ KW Power
Standard Interface Processor參數(shù):32GB(高帶寬動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)、900 TB/S(TTP帶寬)、50 GB/S(以太網(wǎng)帶寬)、32GB/S(第四代PCI帶寬)
High Interface Processor參數(shù):640GB(高帶寬動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)、1TB/S(以太網(wǎng)帶寬)、18 TB/S(Aggregate Bandwidth To Tiles)
▲圖6. System Tray
▲圖7. Dojo Host 接口
對(duì)應(yīng)32GB高傳輸頻寬存儲(chǔ)、每秒900TB資料傳輸量,以及每秒可對(duì)應(yīng)50GB資料傳輸量的網(wǎng)路傳輸頻寬的Dojo接口處理器
▲圖8. Dojo的接口處理器
下圖是Dojo的時(shí)間進(jìn)度表。
▲圖9. Dojo 的時(shí)間進(jìn)度
Part 2、Dojo的軟件系統(tǒng)
Dojo系統(tǒng)建立目標(biāo):解決很難形成規(guī)模的約束模型。
▲圖10. 軟件的優(yōu)化目標(biāo)
單一的加速器到前向和后向通道、優(yōu)化器、多個(gè)加速器上運(yùn)行多個(gè)副本的流程。更大激活度的模型想運(yùn)行前向通道時(shí)會(huì)遇到適合單個(gè)加速器的批量大小往往小于批量規(guī)范面的問題;多個(gè)加速器上設(shè)置同步批量規(guī)范模式。
高密度集成是為了加速模型的計(jì)算約束和延遲約束部分;Dojo網(wǎng)格的一個(gè)片斷可以被分割出來運(yùn)行模型(只要分片足夠大);統(tǒng)一的低延遲中的細(xì)粒度同步原語加速跨集成邊界的并行性;Tensors是以RAM的形式存儲(chǔ)Chardon,并在各層執(zhí)行時(shí)及時(shí)復(fù)制;張量復(fù)制的另一個(gè)數(shù)據(jù)傳輸與計(jì)算重疊,編譯器也可重新計(jì)算層。
▲圖11. 網(wǎng)絡(luò)模型
編譯器以模型并行的方式映射,通信階段從節(jié)點(diǎn)計(jì)算本地平均值和標(biāo)準(zhǔn)偏差開始;協(xié)調(diào)后繼續(xù)并行。從編譯器中提取通信樹;真實(shí)硬件的時(shí)間節(jié)點(diǎn),中間輻射減少的值由硬件加速;這個(gè)操作在25個(gè)Dojo編譯器上只需要5微秒,同樣的操作在24個(gè)GPU上需要150微秒。這是對(duì)GPU的一個(gè)數(shù)量級(jí)的改進(jìn)。
▲圖12. 對(duì)比的結(jié)果
Dojo是為解決更大的復(fù)雜模型而建立的,當(dāng)前兩個(gè)GPU集群的使用模式,
● 自動(dòng)標(biāo)注網(wǎng)絡(luò)(用于生成地面真相的離線模型)
● 占有率網(wǎng)絡(luò)(高算術(shù)強(qiáng)度的大型模型)
測(cè)試結(jié)果:多模系統(tǒng)上對(duì)GPU和Dojo進(jìn)行的測(cè)量顯示已經(jīng)可以超越任何100個(gè)使用當(dāng)前硬件運(yùn)行的老一代PRMS的性能;A100的吞吐量翻了一番;關(guān)鍵的編譯器優(yōu)化達(dá)到M100的3倍以上的性能。
目前來看,一個(gè)Dojo可以取代6個(gè)GPU盒子上的ML計(jì)算機(jī),而成本比一個(gè)GPU盒子還低,目前一個(gè)多月時(shí)間來訓(xùn)練的網(wǎng)絡(luò)現(xiàn)在只需要不到一個(gè)星期
▲圖13. Dojo的特性對(duì)比
小結(jié):這些信息感覺都是為了給全球的工程師的,也是給出了很多的技術(shù)發(fā)展的方向,有些像之前開放專利的模式,為了進(jìn)一步招納年輕的工程師準(zhǔn)備的。