據(jù)最新消息披露,包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特爾(Intel)、Meta和微軟(Microsoft)在內(nèi)的八家公司宣告,他們已經(jīng)為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink(Ultra Accelerator Link)。通過為人工智能加速器之間的通信建立一個(gè)開放標(biāo)準(zhǔn),以打破市場領(lǐng)導(dǎo)者 Nvidia的壟斷。
眾所周知,英偉達(dá)是人工智能芯片市場最大的參與者,他們?cè)贕PU上擁有了絕對(duì)領(lǐng)先的份額。但其實(shí)除此以外,英偉達(dá)還擁有一系列技術(shù),可用于在多個(gè) GPU 和系統(tǒng)上擴(kuò)展工作負(fù)載。其中包括其片上和封裝互連、用于服務(wù)器或 pod 中 GPU 到 GPU 通信的 NVLink、用于擴(kuò)展 pod 之外的 Infiniband 以及用于連接到更廣泛基礎(chǔ)設(shè)施的以太網(wǎng)。
現(xiàn)在,該行業(yè)的其他公司正試圖用開放標(biāo)準(zhǔn)進(jìn)行反擊,以爭奪這些細(xì)分市場。去年,我們看到了 Ultra Ethernet,它使用增強(qiáng)型以太網(wǎng)旨在取代 Nvidia 的 InfiniBand 高性能互連,后者已迅速成為連接 GPU 加速節(jié)點(diǎn)的事實(shí)標(biāo)準(zhǔn),并且獲得了豐厚的利潤。
今年,我們將獲得 Ultra Accelerator Link 或 UALink ,一項(xiàng)旨在取代 Nvidia 的 NVLink 協(xié)議和 NVLink Switch(有時(shí)稱為 NVSwitch)內(nèi)存結(jié)構(gòu)新標(biāo)準(zhǔn)。在具體介紹UALink 之前,我們先對(duì)Nvlink進(jìn)行介紹。
英偉達(dá)的隱形護(hù)城河
過去,我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠然,經(jīng)過多年的投入,他們已經(jīng)建立起了難以逾越的優(yōu)勢(shì)。但除此以外,如上所述,英偉達(dá)還有很多隱形護(hù)城河,NVLink就是其中的一個(gè),一個(gè)為GPU到GPU互聯(lián)提供高速連接的技術(shù)。
在摩爾定律逐漸失效,但對(duì)算力要求越來越高的當(dāng)下,這種互聯(lián)顯得尤為必要。
按照英偉達(dá)在官方網(wǎng)站中表示,NVLink 是全球首創(chuàng)的高速GPU 互連技術(shù),為多GPU 系統(tǒng)提供另一種選擇,與傳統(tǒng)的PCI-E 解決方案相比,速度方面擁有顯著提升。使用NVLink 連接兩張NVIDIA GPU,即可彈性調(diào)整記憶體與效能,滿足專業(yè)視覺運(yùn)算最高工作負(fù)載的需求。
相關(guān)資料顯示,NVLink 最初是一種將 Nvidia GPU 卡上的內(nèi)存組合在一起的方法,最終 Nvidia Research 實(shí)現(xiàn)了一個(gè)交換機(jī)來驅(qū)動(dòng)這些端口,允許 Nvidia 以杠鈴?fù)負(fù)洌╞arbell topology )連接兩個(gè)以上的 GPU,或以十字交叉方形拓?fù)洌╟risscrossed square topology)連接四個(gè) GPU,這種拓?fù)鋷资陙硗ǔS糜趧?chuàng)建基于 CPU 的雙插槽和四插槽服務(wù)器。
幾年前,AI 系統(tǒng)需要八個(gè)或十六個(gè) GPU 共享內(nèi)存,以簡化編程,并使這些 GPU 能夠以內(nèi)存速度(而不是網(wǎng)絡(luò)速度)訪問數(shù)據(jù)集。因此,實(shí)驗(yàn)室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平臺(tái)上迅速商業(yè)化。
目前,NVLink可在 GPU 之間以每秒 1.8 TB 的速度傳輸數(shù)據(jù)。此外,還有一個(gè) NVLink 機(jī)架級(jí)交換機(jī),能夠在無阻塞計(jì)算結(jié)構(gòu)中支持多達(dá) 576 個(gè)完全連接的 GPU。通過 NVLink 連接的 GPU 稱為“pod”,表示它們有自己的數(shù)據(jù)和計(jì)算域。
其實(shí)除了Nvlink以外,還有兩種連接GPU的方法,分別是PCI總線和Server-to-Server互聯(lián)。據(jù)了解,標(biāo)準(zhǔn)服務(wù)器通常可以在 PCI 總線上支持 4-8 個(gè) GPU。通過使用GigaIO FabreX 內(nèi)存結(jié)構(gòu)等技術(shù),可以將這個(gè)數(shù)字增加到 32 個(gè)。
除此以外,以太網(wǎng)或 InfiniBand可以連接包含 GPU 的服務(wù)器。這種連接級(jí)別通常稱為橫向擴(kuò)展,其中較快的多 GPU 域通過較慢的網(wǎng)絡(luò)連接以形成大型計(jì)算網(wǎng)絡(luò)。
其實(shí)自從比特開始在機(jī)器之間移動(dòng)以來,以太網(wǎng)一直是計(jì)算機(jī)網(wǎng)絡(luò)的主力。最近,通過引入超級(jí)以太網(wǎng)聯(lián)盟,該規(guī)范已被推動(dòng)以提供高性能。事實(shí)上,英特爾已經(jīng)在以太網(wǎng)上插上了互連旗幟,因?yàn)橛⑻貭?Gaudi -2 AI 處理器在芯片上擁有 24 個(gè) 100 千兆以太網(wǎng)連接。
不過,Nvidia 沒有加入超級(jí)以太網(wǎng)聯(lián)盟,因?yàn)樗麄冊(cè)?2019 年 3 月收購 Mellanox 后,基本上獨(dú)占了高性能 InfiniBand 互連市場。超級(jí)以太網(wǎng)聯(lián)盟旨在成為其他所有人的“InfiniBand”。值得一提的是,英特爾曾經(jīng)高舉 InfiniBand 大旗。
因此在這種情況下,對(duì)于其他人來說,除了用于連接 MI300A APU 的 AMD Infinity Fabric 之外,沒有其他選擇。與 InfiniBand/以太網(wǎng)的情況類似,需要某種“超級(jí)”競爭對(duì)手聯(lián)盟來填補(bǔ)非 Nvidia 的“pod 空缺”。而這正是UALink推出的重要原因。
什么是UALink?
超級(jí)加速器鏈(Ultra Accelerator Link,UALink)同樣是一種可提高新一代AI/ML集群性能的高速加速器互連技術(shù)。八家發(fā)起廠商(和超級(jí)以太網(wǎng)聯(lián)盟一樣,我們也沒有在UAlink聯(lián)盟中看到英偉達(dá)的身影)也成立了一個(gè)開放行業(yè)標(biāo)準(zhǔn)機(jī)構(gòu)來制定相關(guān)技術(shù)規(guī)范,以促進(jìn)新使用模式所需的突破性性能,同時(shí)支持?jǐn)?shù)據(jù)中心加速器用開放生態(tài)系統(tǒng)的發(fā)展。
在他們看來,發(fā)起這個(gè)標(biāo)準(zhǔn)很有必要。因?yàn)殡S著AI計(jì)算需求的增長,擁有穩(wěn)健、低延遲且可高效縱向擴(kuò)展的網(wǎng)絡(luò),從而輕松將計(jì)算資源添加到單個(gè)實(shí)例中至關(guān)重要。而針對(duì)縱向擴(kuò)展功能制定開放的行業(yè)標(biāo)準(zhǔn)規(guī)范,有助于為AI工作負(fù)載創(chuàng)建開放的高性能環(huán)境,從而提供盡可能高的性能。
正是由于這個(gè)原因,UALink和行業(yè)規(guī)范對(duì)于新一代AI數(shù)據(jù)中心用AI和機(jī)器學(xué)習(xí)、HPC和云應(yīng)用程序的接口標(biāo)準(zhǔn)化及其實(shí)現(xiàn)至關(guān)重要。該工作組將制定相應(yīng)的規(guī)范來界定AI計(jì)算容器組中加速器與交換機(jī)之間進(jìn)行縱向擴(kuò)展通信所需的高速低延遲互連。
從相關(guān)資料可以看到,Ultra Accelerator Link 聯(lián)盟的核心于去年 12 月就已經(jīng)建立,當(dāng)時(shí) CPU 和 GPU 制造商 AMD 和 PCI-Express 交換機(jī)制造商博通表示,博通未來的 PCI-Express 交換機(jī)將支持 xGMI 和 Infinity Fabric 協(xié)議,用于將其 Instinct GPU 內(nèi)存相互連接,以及使用 CPU NUMA 鏈接的加載/存儲(chǔ)內(nèi)存語義將其內(nèi)存連接到 CPU 主機(jī)的內(nèi)存。相關(guān)消息顯示,這將是未來的“Atlas 4”交換機(jī),它將遵循 PCI-Express 7.0 規(guī)范,并于 2025 年上市。博通數(shù)據(jù)中心解決方案集團(tuán)副總裁兼總經(jīng)理 Jas Tremblay 證實(shí),這項(xiàng)工作仍在進(jìn)行中,但不要妄下結(jié)論。換而言之,我們不要以為 PCI-Express 是唯一的 UALink 傳輸,也不要以為 xGMI 是唯一的協(xié)議。
AMD 為 UALink 項(xiàng)目貢獻(xiàn)了范圍更廣的 Infinity Fabric 共享內(nèi)存協(xié)議以及功能更有限且特定于 GPU 的 xGMI,而所有其他參與者都同意使用 Infinity Fabric 作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級(jí)副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理 Sachin Katti 表示,由 AMD、博通、思科系統(tǒng)、谷歌、惠普企業(yè)、英特爾、Meta Platforms 和微軟組成的 Ultra Accelerator Link“推動(dòng)者小組”正在考慮使用以太網(wǎng)第 1 層傳輸層,并在其上采用 Infinity Fabric,以便將 GPU 內(nèi)存粘合到類似于 CPU 上的 NUMA 的巨大共享空間中。
我們分享了如何使用以太網(wǎng)將 Pod 鏈接到更大的集群:
如thenextplatform所說,沒人期望將來自多個(gè)供應(yīng)商的 GPU 連接到一個(gè)機(jī)箱內(nèi),甚至可能是一個(gè)機(jī)架或多個(gè)機(jī)架中的一個(gè)Pod內(nèi)。但 UALink 聯(lián)盟成員確實(shí)相信,系統(tǒng)制造商將創(chuàng)建使用 UALink 的機(jī)器,并允許在客戶構(gòu)建其艙時(shí)將來自許多參與者的加速器放入這些機(jī)器中。您可以有一個(gè)帶有 AMD GPU 的Pod,一個(gè)帶有 Intel GPU 的Pod,另一個(gè)帶有來自任意數(shù)量的其他參與者的自定義加速器Pod。它允許在互連級(jí)別實(shí)現(xiàn)服務(wù)器設(shè)計(jì)的通用性,就像 Meta Platforms 和 Microsoft 發(fā)布的開放加速器模塊 (OAM) 規(guī)范允許系統(tǒng)板上加速器插槽的通用性一樣。
總而言之,UALink 的一大優(yōu)勢(shì)是讓業(yè)內(nèi)其他所有人都有機(jī)會(huì)與 NVIDIA 保持同步。NVIDIA 現(xiàn)在有能力制造NVSwitch盒并將這些 NVSwitch 托盤放入NVIDIA DGX GB200 NVL72等產(chǎn)品中。
英特爾今年的 AI 加速器銷售額達(dá)數(shù)億美元,這可能意味著它只賣出幾萬臺(tái)加速器。AMD 今年將銷售數(shù)十億美元的 MI300X,但這仍然遠(yuǎn)不及 NVIDIA 的 AI 規(guī)模。擁有 UALink 允許像 Broadcom 這樣的公司制造 UALink 交換機(jī)來幫助其他公司擴(kuò)大規(guī)模,然后在多家公司的加速器上使用這些交換機(jī)。
我們已經(jīng)報(bào)道了 Broadcom Atlas 交換機(jī)計(jì)劃與AMD Infinity Fabric AFL Scale Up 競爭 NVIDIA NVLink 即將出現(xiàn)在 PCIe Gen7 中的 Broadcom 交換機(jī)上。我們?cè)诤唸?bào)中被告知,這些可能會(huì)實(shí)現(xiàn) UALink 的 V1.0。當(dāng)然,UALink V1.0 規(guī)范尚未出臺(tái)。
他們表示,1.0版的規(guī)范將允許在AI容器組中連接不超過1,024個(gè)加速器,支持在容器組中掛載到加速器(例如GPU)的內(nèi)存之間進(jìn)行直接加載和存儲(chǔ)。UALink發(fā)起人工作組已經(jīng)成立了UALink聯(lián)盟,預(yù)計(jì)將在2024年第三季度正式成立。1.0版規(guī)范預(yù)計(jì)將于2024年第三季度推出,并向參加超級(jí)加速器鏈(UALink)聯(lián)盟的公司開放。
CXL怎么辦?
其實(shí)在過去幾年,行業(yè)參與者已經(jīng)承諾過在 PCI-Express 結(jié)構(gòu)上運(yùn)行的 Compute Express Link (CXL) 協(xié)議將提供同樣的功能。例如CXLmem 子集就已經(jīng)提供了 CPU 和 GPU 之間的內(nèi)存共享嗎。
但在分析人士看來,PCI-Express 和 CXL 是更廣泛的傳輸和協(xié)議。
Katti 指出,AI 加速器模塊的內(nèi)存域比 CPU 集群的內(nèi)存域大得多,我們知道 CPU 集群的擴(kuò)展范圍從 2 個(gè)到 4 個(gè),有時(shí)到 8 個(gè),很少到 16 個(gè)計(jì)算引擎。許多人認(rèn)為,AI 加速器的 GPU 模塊可擴(kuò)展到數(shù)百個(gè)計(jì)算引擎,并且需要擴(kuò)展到數(shù)千個(gè)。更重要的是,與 CPU NUMA 集群不同,GPU 集群(尤其是運(yùn)行 AI 工作負(fù)載的集群)對(duì)內(nèi)存延遲的容忍度更高。
為此The Next Platform表示,我們不要指望看到 UALinks 將 CPU 捆綁在一起,但沒有理由相信未來的 CXL 鏈接最終不會(huì)成為 CPU 共享內(nèi)存的標(biāo)準(zhǔn)方式——甚至可能跨越不同的架構(gòu)。
這實(shí)際上是為了打破 NVLink 在互連結(jié)構(gòu)內(nèi)存語義方面的壟斷。無論 Nvidia 如何使用 NVLink 和 NVSwitch,它的幾家競爭對(duì)手都需要為潛在客戶提供可靠的替代方案——無論他們是銷售 GPU 還是其他類型的加速器或整個(gè)系統(tǒng)——這些潛在客戶肯定希望為 AI 服務(wù)器節(jié)點(diǎn)和機(jī)架式設(shè)備提供比 Nvidia 互連更開放、更便宜的替代方案。
“當(dāng)我們審視整個(gè)數(shù)據(jù)中心對(duì) AI 系統(tǒng)的需求時(shí),有一點(diǎn)非常明顯,那就是 AI 模型繼續(xù)大規(guī)模增長,”AMD 數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理 Forrest Norrod 說道?!懊總€(gè)人都可以看到,這意味著對(duì)于最先進(jìn)的模型,許多加速器需要協(xié)同工作以進(jìn)行推理或訓(xùn)練。能夠擴(kuò)展這些加速器對(duì)于推動(dòng)未來大規(guī)模系統(tǒng)的效率、性能和經(jīng)濟(jì)性至關(guān)重要。擴(kuò)展有幾個(gè)不同的方面,但 Ultra Accelerator Link 的所有支持者都非常強(qiáng)烈地感受到,行業(yè)需要一個(gè)可以快速推進(jìn)的開放標(biāo)準(zhǔn),一個(gè)允許多家公司為整個(gè)生態(tài)系統(tǒng)增加價(jià)值的開放標(biāo)準(zhǔn)。并且允許創(chuàng)新不受任何一家公司的束縛而快速進(jìn)行?!?/p>
毫無疑問,AMD Forrest Norrod說的這家公司就是Nvidia,他們通過投資了InfiniBand,并創(chuàng)建了具有絕對(duì)超大網(wǎng)絡(luò)帶寬的 NVSwitch 來為 GPU 進(jìn)行 NUMA 集群。當(dāng)然,他們最初這樣做的是因?yàn)?PCI-Express 交換機(jī)在總帶寬方面仍然有限。
有趣的是,UALink 1.0 規(guī)范將在今年第三季度完成,屆時(shí) Ultra Accelerator Consortium 也將加入進(jìn)來,擁有知識(shí)產(chǎn)權(quán)并推動(dòng) UALink 標(biāo)準(zhǔn)的發(fā)展。今年第四季度,UALink 1.1 更新將發(fā)布,這將進(jìn)一步提高規(guī)模和性能。目前尚不清楚 1.0 和 1.1 UALink 規(guī)范將支持哪些傳輸,或者哪些將支持 PCI-Express 或以太網(wǎng)傳輸。
使用 NVLink 4 端口的 NVSwitch 3 結(jié)構(gòu)理論上可以在共享內(nèi)存 pod 中跨越多達(dá) 256 個(gè) GPU,但 Nvidia 的商業(yè)產(chǎn)品僅支持 8 個(gè) GPU。借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 理論上可以支持跨越多達(dá) 576 個(gè) GPU 的 pod,但實(shí)際上,商業(yè)支持僅在 DGX B200 NVL72 系統(tǒng)中最多 72 個(gè) GPU 的機(jī)器上提供。
如今,許多公司都在嘗試采用標(biāo)準(zhǔn) PCIe 交換機(jī)并構(gòu)建基于 PCIe 的結(jié)構(gòu)以擴(kuò)展到更多加速器。業(yè)內(nèi)大公司似乎將此視為權(quán)宜之計(jì)。相反,NVIDIA 的 NVLink 更像是業(yè)內(nèi)擴(kuò)展的黃金標(biāo)準(zhǔn)。
現(xiàn)在,UAlink團(tuán)隊(duì)正準(zhǔn)備發(fā)布專有 NVLink 的公開競爭對(duì)手。
所有這些都需要時(shí)間。記者在簡報(bào)會(huì)上問這是否是一個(gè) 2026 年左右的實(shí)施目標(biāo)。2024 年還太早,即使它被融入到產(chǎn)品中,目前也不太可能成為 2025 年初的產(chǎn)品。如果你看看CXL或UCIe,這些標(biāo)準(zhǔn)需要很長時(shí)間才能最終成為產(chǎn)品。2026 年將是一個(gè)快速實(shí)施的時(shí)間。
對(duì)于 AMD 和英特爾等公司來說,這提供了一條復(fù)制 NVLink 和 NVSwitch 功能并與其他公司共享開發(fā)成果的途徑。像博通這樣的公司很可能是最大的贏家,因?yàn)樗ㄎ粸榉?NVIDIA 系統(tǒng)的連接提供商,無論是用于縱向擴(kuò)展還是橫向擴(kuò)展。無論是 AMD 還是英特爾獲勝,博通都在銷售連接。對(duì)于超大規(guī)模企業(yè)來說,無論誰制造端點(diǎn),投資標(biāo)準(zhǔn)化結(jié)構(gòu)的能力都非常有意義。
順便說一句,在 2019-2020 年期間,行業(yè)考慮將 CXL in-box 和Gen-Z作為擴(kuò)展解決方案。許多當(dāng)年展示 Gen-Z 的人現(xiàn)在都在 AMD 工作,就像 AMD 多年來一直在組建一支團(tuán)隊(duì),他們看到并一直在努力解決擴(kuò)展挑戰(zhàn)。
希望我們能夠盡快看到 UALink 投入使用。對(duì)啦,多說一句,貌似沒有看到Marvell的身影?