數(shù)以萬(wàn)計(jì)的 NVIDIA GPU、NVIDIA Quantum-2 InfiniBand 以及全棧式 NVIDIA AI 軟件即將登陸 Azure;NVIDIA、微軟和多家全球企業(yè)將使用該平臺(tái)進(jìn)行快速、經(jīng)濟(jì)的 AI 開(kāi)發(fā)和部署
美國(guó)加利福尼亞州圣克拉拉 – 2022 年 11 月 16 日 – NVIDIA 于今日宣布與微軟展開(kāi)一項(xiàng)為期多年的合作,雙方將共同打造全球最強(qiáng)大的 AI 超級(jí)計(jì)算機(jī)。微軟 Azure 的先進(jìn)超級(jí)計(jì)算基礎(chǔ)設(shè)施,結(jié)合 NVIDIA GPU、網(wǎng)絡(luò)和全棧式 AI 軟件為此超級(jí)計(jì)算機(jī)賦能,以幫助企業(yè)訓(xùn)練、部署和擴(kuò)展包括大型、先進(jìn)模型在內(nèi)的AI。
Azure 的云端 AI 超級(jí)計(jì)算機(jī)包括強(qiáng)大、可擴(kuò)展 ND 與 NC 系列虛擬機(jī),其專(zhuān)為 AI 分布式訓(xùn)練和推理而優(yōu)化,是首個(gè)采用 NVIDIA 先進(jìn) AI 堆棧的公有云,并添加了數(shù)以萬(wàn)計(jì)的 NVIDIA A100 和 H100 GPU、NVIDIA Quantum-2 400Gb/s InfiniBand 網(wǎng)絡(luò)和 NVIDIA AI Enterprise 軟件套件在平臺(tái)上。
在此次合作中,NVIDIA 將使用 Azure 的可擴(kuò)展虛擬機(jī)實(shí)例來(lái)研究并進(jìn)一步加快生成式 AI 的發(fā)展。生成式 AI 是正在迅速興起的 AI 領(lǐng)域,其中像 Megatron Turing NLG 530B這樣的基礎(chǔ)模型是無(wú)監(jiān)督、自學(xué)習(xí)算法的基準(zhǔn),這些算法被用來(lái)創(chuàng)造新的文本、代碼、數(shù)字圖像、視頻或音頻。
兩家公司還將合作優(yōu)化微軟的 DeepSpeed 深度學(xué)習(xí)優(yōu)化軟件。NVIDIA 的全棧式 AI 工作流和軟件開(kāi)發(fā)工具包皆專(zhuān)為 Azure 進(jìn)行了優(yōu)化,并將提供給 Azure 企業(yè)客戶(hù)。
NVIDIA 企業(yè)計(jì)算副總裁 Manuvir Das 表示: “AI 技術(shù)正在加速發(fā)展,行業(yè)的采用速度也在同時(shí)加快?;A(chǔ)模型上的突破引發(fā)了研究浪潮、培育了新的初創(chuàng)企業(yè)并啟動(dòng)了新的企業(yè)應(yīng)用程序。我們將與微軟一同為研究者和企業(yè)提供最先進(jìn)的 AI 基礎(chǔ)設(shè)施和軟件,使他們能夠充分利用 AI 的變革性力量?!?/p>
微軟云與 AI 事業(yè)部執(zhí)行副總裁 Scott Guthrie 表示:“AI 正在掀起整個(gè)企業(yè)和工業(yè)計(jì)算的下一輪自動(dòng)化浪潮,幫助企業(yè)機(jī)構(gòu)在變幻莫測(cè)的經(jīng)濟(jì)環(huán)境中得以事半功倍。我們與 NVIDIA 合作,打造全球可擴(kuò)展性最強(qiáng)的超級(jí)計(jì)算機(jī)平臺(tái),為微軟 Azure 上的每家企業(yè)提供最先進(jìn)的 AI 功能?!?/p>
通過(guò) Azure 上的 NVIDIA 計(jì)算 與 Quantum-2 InfiniBand 實(shí)現(xiàn)可擴(kuò)展峰值性能
微軟Azure的AI優(yōu)化虛擬機(jī)實(shí)例采用了 NVIDIA 最先進(jìn)的數(shù)據(jù)中心 GPU,并且是首個(gè)搭載 NVIDIA Quantum-2 400Gb/s InfiniBand 網(wǎng)絡(luò)的公有云實(shí)例??蛻?hù)可以在單個(gè)集群中部署數(shù)千 GPU 來(lái)訓(xùn)練最具規(guī)模的大型語(yǔ)言模型,大規(guī)模地構(gòu)建最復(fù)雜的推薦系統(tǒng)以及實(shí)現(xiàn)生成式 AI。
目前的 Azure 實(shí)例采用了 NVIDIA Quantum 200Gb/s InfiniBand 網(wǎng)絡(luò)和 NVIDIA A100 GPU。未來(lái)的實(shí)例將集成 NVIDIA Quantum-2 400Gb/s InfiniBand 網(wǎng)絡(luò)和 NVIDIA H100 GPU。結(jié)合 Azure 先進(jìn)的計(jì)算云基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和存儲(chǔ),這些通過(guò) AI 優(yōu)化的產(chǎn)品將為任何規(guī)模的 AI 訓(xùn)練和深度學(xué)習(xí)推理工作負(fù)載提供可擴(kuò)展的峰值性能。
加速 AI 的開(kāi)發(fā)和部署
另外,該平臺(tái)將支持廣泛的 AI 應(yīng)用和服務(wù),包括微軟 DeepSpeed 和 NVIDIA AI Enterprise 軟件套件。
微軟 DeepSpeed 將使用 NVIDIA H100 Transformer 引擎來(lái)加速基于 Transformer的模型,這些模型可用于大型語(yǔ)言模型、生成式 AI 和編寫(xiě)計(jì)算機(jī)代碼等應(yīng)用。該技術(shù)將 8 位浮點(diǎn)精度能力應(yīng)用于 DeepSpeed,大大加快了 Transformer 的 AI 計(jì)算速度,使其吞吐量達(dá)到 16 位運(yùn)算的兩倍。
被全球企業(yè)廣泛采用的 NVIDIA AI 平臺(tái)軟件 NVIDIA AI Enterprise 已通過(guò)認(rèn)證并支持搭載 NVIDIA A100 GPU 的微軟Azure 實(shí)例。未來(lái)的軟件版本將增加對(duì)搭載 ?NVIDIA H100 GPU 的 Azure 實(shí)例的支持。
NVIDIA AI Enterprise 包括用于語(yǔ)音 AI 的 NVIDIA Riva 以及 NVIDIA Morpheus 網(wǎng)絡(luò)安全應(yīng)用框架,可簡(jiǎn)化從數(shù)據(jù)處理和 AI 模型訓(xùn)練到仿真和大規(guī)模部署等AI工作流中的每一步。