作者 | 方文三
前言:
當(dāng)前,眾多企業(yè)正積極嘗試引入標(biāo)準(zhǔn)PCIe交換機(jī),并據(jù)此構(gòu)建基于PCIe的架構(gòu)體系,以實(shí)現(xiàn)對(duì)更多加速器的有效擴(kuò)展。
盡管如此,業(yè)界領(lǐng)軍企業(yè)對(duì)此類做法多持審慎態(tài)度,將其視為一種權(quán)宜之計(jì)。
相較之下,英偉達(dá)的NVLink技術(shù)已確立為行業(yè)內(nèi)橫向擴(kuò)展技術(shù)的典范,獲得了廣泛認(rèn)可。
如今,一個(gè)致力于打破專有技術(shù)壁壘的開放標(biāo)準(zhǔn)陣營(yíng)正逐漸嶄露頭角。
英偉達(dá)的NVLink讓廠商們心生不安
作為英偉達(dá)的核心技術(shù),NVLink在GPU網(wǎng)絡(luò)通信系統(tǒng)中占據(jù)重要地位,其對(duì)于提升數(shù)據(jù)傳輸效率和處理性能具有顯著作用。
NVLink技術(shù)實(shí)現(xiàn)了GPU與支持該技術(shù)的CPU之間以及多個(gè)GPU之間的高帶寬直接連接,從而大幅提升了整體性能。
然而,值得注意的是,NVLink技術(shù)并未向行業(yè)開放,這在一定程度上影響了其他廠商在相關(guān)領(lǐng)域的競(jìng)爭(zhēng)力。
盡管英偉達(dá)的AI系統(tǒng)在市場(chǎng)上表現(xiàn)出色,但人們往往忽視了其背后的眾多關(guān)鍵技術(shù)。
實(shí)際上,英偉達(dá)不僅擁有出色的GPU和軟件,還在跨多個(gè)GPU和系統(tǒng)橫向擴(kuò)展工作負(fù)載方面擁有豐富的技術(shù)積累。
這些技術(shù)包括芯片上和封裝上互連、用于服務(wù)器或pod中GPU到GPU通信的NVLink、用于超pod擴(kuò)展的Infiniband以及連接到更龐大基礎(chǔ)設(shè)施的以太網(wǎng)等。
IBM指出,NVLink技術(shù)使得CPU與GPU之間能夠?qū)崿F(xiàn)快速數(shù)據(jù)交換,從而提升了整個(gè)計(jì)算系統(tǒng)的數(shù)據(jù)吞吐量,有效克服了加速計(jì)算領(lǐng)域的一大瓶頸。
隨著英偉達(dá)GPU芯片的更新迭代,NVLink技術(shù)也在不斷進(jìn)化。
從2017年的NVLink 2.0到2020年的NVLink 3.0,再到2022年的NVLink 4.0,每一次更新都帶來(lái)了更高的性能和更廣泛的應(yīng)用場(chǎng)景。
在2024年的GTC大會(huì)上,英偉達(dá)推出了全新的NVLink 5.0技術(shù),并與最新一代Blackwell芯片一同亮相。
這一技術(shù)極大地提升了大型多GPU系統(tǒng)的可擴(kuò)展性,單個(gè)Blackwell Tensor Core GPU支持多達(dá)18個(gè)NVLink 100GB/s連接,總帶寬達(dá)到1.8TB/s,較上一代產(chǎn)品提升了兩倍之多。
此外,NVLink 5.0技術(shù)還支持跨節(jié)點(diǎn)擴(kuò)展,通過NVLink Switch實(shí)現(xiàn)無(wú)縫、高帶寬、多節(jié)點(diǎn)GPU集群的構(gòu)建,從而滿足數(shù)據(jù)中心級(jí)別的大型GPU需求。
利用NVLink技術(shù),多服務(wù)器集群能夠平衡GPU通信與增加的計(jì)算量,從而實(shí)現(xiàn)了更高的性能和效率。
例如,在GB200 NVL72等服務(wù)器平臺(tái)上,NVLink技術(shù)的應(yīng)用使得這些平臺(tái)能夠支持更為復(fù)雜的大型模型,并提供了更高的可擴(kuò)展性。
這些優(yōu)勢(shì)使得英偉達(dá)在GPU網(wǎng)絡(luò)通信領(lǐng)域繼續(xù)保持領(lǐng)先地位,并為其在AI、數(shù)據(jù)中心等領(lǐng)域的廣泛應(yīng)用提供了有力支持。
八大科技巨頭組團(tuán)推出UALink
近日,包括谷歌、Meta、微軟、AMD、英特爾、博通、思科、惠普在內(nèi)的科技巨頭聯(lián)合宣布成立Ultra Accelerator Link(UALink)聯(lián)盟,致力于開發(fā)人工智能數(shù)據(jù)中心GPU網(wǎng)絡(luò)通信系統(tǒng)的全新行業(yè)開放標(biāo)準(zhǔn)。
此舉旨在打破英偉達(dá)在市場(chǎng)上的壟斷地位,推動(dòng)行業(yè)內(nèi)的競(jìng)爭(zhēng)與創(chuàng)新。
UALink倡議由AMD牽頭提出,得到了英特爾、博通等公司的積極響應(yīng)與支持。
作為倡導(dǎo)組織的成員,思科、谷歌、惠普、Meta和微軟等公司亦表示大力支持。
該倡議致力于構(gòu)建一種內(nèi)存語(yǔ)義結(jié)構(gòu),在首個(gè)版本規(guī)范中便支持?jǐn)U展至1024個(gè)端點(diǎn),以適應(yīng)不同規(guī)模的AI計(jì)算需求。
UALink聯(lián)盟計(jì)劃推出的首個(gè)UALink 1.0版本將實(shí)現(xiàn)AMD的Instinct GPU和英特爾的Gaudi等專用處理器之間的直接數(shù)據(jù)傳輸,從而顯著提升AI計(jì)算的性能與效率。
UALink的高速I/O通信設(shè)計(jì)與協(xié)議展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力,彰顯了聯(lián)盟成員挑戰(zhàn)市場(chǎng)領(lǐng)導(dǎo)者的決心。
UALink專家組將負(fù)責(zé)制定管理數(shù)據(jù)中心中不同GPU之間連接的標(biāo)準(zhǔn),并預(yù)計(jì)于2024年第三季度向聯(lián)盟成員提供這些標(biāo)準(zhǔn)。
此舉將為其他廠商提供更多參與市場(chǎng)競(jìng)爭(zhēng)的機(jī)會(huì),進(jìn)一步推動(dòng)行業(yè)的創(chuàng)新與發(fā)展。
去年,Ultra Ethernet技術(shù)的出現(xiàn)為行業(yè)帶來(lái)了增強(qiáng)型以太網(wǎng)作為Infiniband的替代方案。
今年,UALink的推出更是劍指NVLink,旨在打破其市場(chǎng)壟斷地位。
UALink的推出為業(yè)界其他公司提供了追趕英偉達(dá)步伐的契機(jī)。
隨著AI計(jì)算需求的不斷增長(zhǎng),擁有一個(gè)穩(wěn)健、低延遲且可高效擴(kuò)展的網(wǎng)絡(luò)對(duì)于提升計(jì)算性能至關(guān)重要。
UALink及行業(yè)規(guī)范的制定將有助于為AI工作負(fù)載創(chuàng)建開放的高性能環(huán)境,推動(dòng)行業(yè)的持續(xù)進(jìn)步。
UALink工作組將致力于制定規(guī)范,以界定AI計(jì)算容器組中加速器與交換機(jī)之間進(jìn)行縱向擴(kuò)展通信所需的高速低延遲互連。
通過標(biāo)準(zhǔn)化接口和實(shí)現(xiàn)方式,UALink將為新一代AI數(shù)據(jù)中心提供更加高效、靈活的AI和機(jī)器學(xué)習(xí)、高性能計(jì)算以及云應(yīng)用程序解決方案。
微軟、谷歌以及Meta等或是最大受益者
對(duì)于AMD和英特爾等業(yè)界巨頭,UALink的推出為它們提供了一條復(fù)制NVLink和NVSwitch功能的路徑,并促進(jìn)了與其他企業(yè)的合作與成果共享。
博通等公司在UALink的助力下,可生產(chǎn)UALink交換機(jī),有效推動(dòng)其他公司的規(guī)模擴(kuò)張。
AMD數(shù)據(jù)中心總經(jīng)理Forrest Norrod明確指出,行業(yè)亟需開放標(biāo)準(zhǔn)以推動(dòng)持續(xù)發(fā)展,并鼓勵(lì)多家公司共同參與價(jià)值創(chuàng)造。首批UALink產(chǎn)品預(yù)計(jì)將在未來(lái)幾年內(nèi)陸續(xù)問世。
博通數(shù)據(jù)中心副總裁Jas Tremblay表示,作為UALink聯(lián)盟的創(chuàng)始成員,博通一直致力于將AI技術(shù)融入數(shù)據(jù)中心領(lǐng)域,并支持開放生態(tài)系統(tǒng)協(xié)作,這對(duì)于實(shí)現(xiàn)網(wǎng)絡(luò)擴(kuò)展至關(guān)重要。
思科通用硬件集團(tuán)執(zhí)行副總裁Martin Lund亦強(qiáng)調(diào),隨著AI工作負(fù)載的不斷增長(zhǎng),高性能互連技術(shù)的重要性日益凸顯。
思科將積極參與UALink的開發(fā),共同打造可擴(kuò)展且開放的解決方案,以應(yīng)對(duì)構(gòu)建AI超級(jí)計(jì)算機(jī)所面臨的挑戰(zhàn)。
UALink的最大潛在受益者可能包括微軟、谷歌和Meta等科技巨頭。
這些公司已投入數(shù)十億美元購(gòu)買英偉達(dá)GPU以支持云服務(wù)和AI模型訓(xùn)練,并期望通過UALink降低對(duì)主導(dǎo)供應(yīng)商的依賴。
目前,谷歌已擁有TPU和Axion定制芯片,亞馬遜推出了多個(gè)AI芯片系列,微軟推出了Maia和Cobalt芯片,而Meta也在不斷完善其加速器陣容。
微軟與OpenAI計(jì)劃投入1000億美元建造超級(jí)計(jì)算機(jī),并將采用Cobalt和Maia芯片。UALink將成為連接這些高性能芯片的關(guān)鍵技術(shù)。
對(duì)于AMD和英特爾等公司而言,UALink不僅提供了一條復(fù)制NVLink和NVSwitch功能的途徑,還促進(jìn)了與其他企業(yè)的合作與成果共享。
英特爾今年的AI加速器銷售額已達(dá)到數(shù)億美元,盡管銷量相對(duì)較小,但UALink有望助力其擴(kuò)大市場(chǎng)份額。
AMD今年也將銷售數(shù)十億美元的MI300X產(chǎn)品,盡管與英偉達(dá)在AI領(lǐng)域的規(guī)模相比仍有差距,但UALink的推出將為其帶來(lái)新的發(fā)展機(jī)遇。
此外,UALink的推廣和應(yīng)用還將為博通等公司創(chuàng)造新的商機(jī)。
這些公司可利用UALink技術(shù)生產(chǎn)UALink交換機(jī),協(xié)助其他公司擴(kuò)大規(guī)模,并在多家公司的加速器產(chǎn)品上廣泛應(yīng)用這些交換機(jī),共同推動(dòng)行業(yè)的發(fā)展和進(jìn)步。
結(jié)尾:
值得一提的是,UALink聯(lián)盟并未將英偉達(dá)排除在合作范圍之外,然而,鑒于英偉達(dá)的商業(yè)利益主要聚焦于推廣和維護(hù)其專有技術(shù)生態(tài)系統(tǒng),預(yù)計(jì)其不會(huì)主動(dòng)加入U(xiǎn)ALink聯(lián)盟。
顯而易見,UALink將對(duì)英偉達(dá)的市場(chǎng)優(yōu)勢(shì)造成一定削弱。
不過,從現(xiàn)實(shí)角度來(lái)看,要在短時(shí)間內(nèi)取代英偉達(dá)的地位并不切實(shí)際。
據(jù)相關(guān)消息透露,首批UALink產(chǎn)品預(yù)計(jì)將在[幾年]后推向市場(chǎng)。
然而,盡管面臨諸多挑戰(zhàn),UALink聯(lián)盟仍堅(jiān)定地認(rèn)為這一步是必須邁出的。
畢竟,沒有任何人愿意看到某一領(lǐng)域長(zhǎng)期被壟斷性企業(yè)所主導(dǎo)。
部分資料參考:通信干貨:《八大科技巨頭聯(lián)手挑戰(zhàn)英偉達(dá),新的行業(yè)開放標(biāo)準(zhǔn)UALink來(lái)襲》,云頭條:《挑戰(zhàn)英偉達(dá) NVLink:8大IT巨頭制定UALink標(biāo)準(zhǔn)》,有新Newin:《微軟、谷歌、Meta以及AMD等硅谷巨頭聯(lián)手成立 UALink 制定統(tǒng)一標(biāo)準(zhǔn)》,SDNLAB:《英特爾、AMD等聯(lián)手推出 UALink,劍指英偉達(dá)NVLink》,半導(dǎo)體行業(yè)觀察:《芯片巨頭組團(tuán),向英偉達(dá)NVLink開戰(zhàn)》,問芯:《英特爾、AMD、谷歌、微軟等組建[反英偉達(dá)聯(lián)盟],聯(lián)手打造AI芯片互聯(lián)新標(biāo)準(zhǔn)》