免费大香伊蕉在人线国产,天天干天天拍

在特斯拉 AI Day發(fā)布會(huì)，Dojo這個(gè)特斯拉自己定制超級(jí)計(jì)算平臺(tái)，它的出現(xiàn)是從頭開始構(gòu)建，用于自動(dòng)駕駛視頻數(shù)據(jù)進(jìn)行視頻訓(xùn)練。主要兩個(gè)目的：其一是比市售云計(jì)算更便宜；其二是比市售云計(jì)算更強(qiáng)大——從某種意義上，特斯拉和Jeff Bezos 是不對(duì)付的，所以特斯拉是希望與亞馬遜 AWS 相提并論，使用在線提供的服務(wù)，可以用更少的錢、更快地訓(xùn)練模型。

特斯拉已有是基于 NVIDIA GPU 的大型超級(jí)計(jì)算機(jī)，新的 Dojo 定制計(jì)算機(jī)，是在設(shè)計(jì)層面做有效的突破。

▲圖1. Dojo的計(jì)算效果

Dojo Exapod規(guī)格：1.1 EFLOP、1.3 TB SRAM 和 13 TB 高帶寬 DRAM。

從設(shè)計(jì)之初，硬件層面要為深度的神經(jīng)網(wǎng)絡(luò)訓(xùn)練做考慮，從芯片到機(jī)組再到機(jī)房的傳輸帶寬都是非常擴(kuò)展，將Occupancy網(wǎng)絡(luò)應(yīng)用于Dojo系統(tǒng)之中，實(shí)現(xiàn)了AI硬件與AI軟件的更佳匹配，最后在降低延遲和性能損失上取得的效果十分驚人。

▲圖2. 特斯拉的ExaPOD效果圖

Dojo超級(jí)計(jì)算機(jī)系統(tǒng)的未來路線圖如下：

▲圖3. Dojo的整體Roadmap

Part 1、電源和帶寬設(shè)計(jì)

1）電源供給

在技術(shù)部分，好的計(jì)算模塊需要非常特制的電源設(shè)計(jì)，在這里電壓調(diào)節(jié)模塊可以傳輸1000A電流，具有超高密度，利用多層垂直電源管理材料過渡。這個(gè)設(shè)計(jì)具有高性能、高密度（0.86A/mm²）、復(fù)雜集成性，未來的目標(biāo)是減少54%的CTE，提升3倍性能。在這里提高功率密度是提升系統(tǒng)性能的核心和基石，有趣的是特斯拉在24個(gè)月內(nèi)設(shè)計(jì)更新了14個(gè)版本。

在這個(gè)電源設(shè)計(jì)中，充分考慮了電容、時(shí)鐘和振動(dòng)特性。

● 軟端子連接電容來減少振動(dòng)

● MEMS時(shí)鐘可以有10倍更低的Q-Factor

● 下一步優(yōu)化開關(guān)頻率

▲圖4. 配套的電源模塊

▲圖5. Training Tile的結(jié)構(gòu)

2）可擴(kuò)展的系統(tǒng)

系統(tǒng)集合，包含了功率、結(jié)構(gòu)和散熱三部分，這個(gè)最小單元System Tray參數(shù)：75mm高度、54 PFLOPS（BF16/CFP8）、13.4 TB/S（對(duì)分帶寬）、100+ KW Power

Standard Interface Processor參數(shù)：32GB（高帶寬動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器）、900 TB/S（TTP帶寬）、50 GB/S（以太網(wǎng)帶寬）、32GB/S（第四代PCI帶寬）

High Interface Processor參數(shù)：640GB（高帶寬動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器）、1TB/S（以太網(wǎng)帶寬）、18 TB/S（Aggregate Bandwidth To Tiles）

▲圖6. System Tray

▲圖7. Dojo Host 接口

對(duì)應(yīng)32GB高傳輸頻寬存儲(chǔ)、每秒900TB資料傳輸量，以及每秒可對(duì)應(yīng)50GB資料傳輸量的網(wǎng)路傳輸頻寬的Dojo接口處理器

▲圖8. Dojo的接口處理器

下圖是Dojo的時(shí)間進(jìn)度表。

▲圖9. Dojo 的時(shí)間進(jìn)度

Part 2、Dojo的軟件系統(tǒng)

Dojo系統(tǒng)建立目標(biāo)：解決很難形成規(guī)模的約束模型。

▲圖10. 軟件的優(yōu)化目標(biāo)

單一的加速器到前向和后向通道、優(yōu)化器、多個(gè)加速器上運(yùn)行多個(gè)副本的流程。更大激活度的模型想運(yùn)行前向通道時(shí)會(huì)遇到適合單個(gè)加速器的批量大小往往小于批量規(guī)范面的問題；多個(gè)加速器上設(shè)置同步批量規(guī)范模式。

高密度集成是為了加速模型的計(jì)算約束和延遲約束部分；Dojo網(wǎng)格的一個(gè)片斷可以被分割出來運(yùn)行模型（只要分片足夠大）；統(tǒng)一的低延遲中的細(xì)粒度同步原語加速跨集成邊界的并行性；Tensors是以RAM的形式存儲(chǔ)Chardon，并在各層執(zhí)行時(shí)及時(shí)復(fù)制；張量復(fù)制的另一個(gè)數(shù)據(jù)傳輸與計(jì)算重疊，編譯器也可重新計(jì)算層。

▲圖11. 網(wǎng)絡(luò)模型

編譯器以模型并行的方式映射，通信階段從節(jié)點(diǎn)計(jì)算本地平均值和標(biāo)準(zhǔn)偏差開始；協(xié)調(diào)后繼續(xù)并行。從編譯器中提取通信樹；真實(shí)硬件的時(shí)間節(jié)點(diǎn)，中間輻射減少的值由硬件加速；這個(gè)操作在25個(gè)Dojo編譯器上只需要5微秒，同樣的操作在24個(gè)GPU上需要150微秒。這是對(duì)GPU的一個(gè)數(shù)量級(jí)的改進(jìn)。

▲圖12. 對(duì)比的結(jié)果

Dojo是為解決更大的復(fù)雜模型而建立的，當(dāng)前兩個(gè)GPU集群的使用模式，

● 自動(dòng)標(biāo)注網(wǎng)絡(luò)（用于生成地面真相的離線模型）

● 占有率網(wǎng)絡(luò)（高算術(shù)強(qiáng)度的大型模型）

測(cè)試結(jié)果：多模系統(tǒng)上對(duì)GPU和Dojo進(jìn)行的測(cè)量顯示已經(jīng)可以超越任何100個(gè)使用當(dāng)前硬件運(yùn)行的老一代PRMS的性能；A100的吞吐量翻了一番；關(guān)鍵的編譯器優(yōu)化達(dá)到M100的3倍以上的性能。

目前來看，一個(gè)Dojo可以取代6個(gè)GPU盒子上的ML計(jì)算機(jī)，而成本比一個(gè)GPU盒子還低，目前一個(gè)多月時(shí)間來訓(xùn)練的網(wǎng)絡(luò)現(xiàn)在只需要不到一個(gè)星期