亚洲日韩乱码中文无码蜜桃臀网站,人妻丰满少妇一区二区三区蜜桃

據(jù)最新消息披露，包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise，HPE)、英特爾(Intel)、Meta和微軟(Microsoft)在內(nèi)的八家公司宣告，他們已經(jīng)為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink（Ultra Accelerator Link）。通過為人工智能加速器之間的通信建立一個(gè)開放標(biāo)準(zhǔn)，以打破市場領(lǐng)導(dǎo)者 Nvidia的壟斷。

眾所周知，英偉達(dá)是人工智能芯片市場最大的參與者，他們?cè)贕PU上擁有了絕對(duì)領(lǐng)先的份額。但其實(shí)除此以外，英偉達(dá)還擁有一系列技術(shù)，可用于在多個(gè) GPU 和系統(tǒng)上擴(kuò)展工作負(fù)載。其中包括其片上和封裝互連、用于服務(wù)器或 pod 中 GPU 到 GPU 通信的 NVLink、用于擴(kuò)展 pod 之外的 Infiniband 以及用于連接到更廣泛基礎(chǔ)設(shè)施的以太網(wǎng)。

現(xiàn)在，該行業(yè)的其他公司正試圖用開放標(biāo)準(zhǔn)進(jìn)行反擊，以爭奪這些細(xì)分市場。去年，我們看到了 Ultra Ethernet，它使用增強(qiáng)型以太網(wǎng)旨在取代 Nvidia 的 InfiniBand 高性能互連，后者已迅速成為連接 GPU 加速節(jié)點(diǎn)的事實(shí)標(biāo)準(zhǔn)，并且獲得了豐厚的利潤。

今年，我們將獲得 Ultra Accelerator Link 或 UALink ，一項(xiàng)旨在取代 Nvidia 的 NVLink 協(xié)議和 NVLink Switch（有時(shí)稱為 NVSwitch）內(nèi)存結(jié)構(gòu)新標(biāo)準(zhǔn)。在具體介紹UALink 之前，我們先對(duì)Nvlink進(jìn)行介紹。

英偉達(dá)的隱形護(hù)城河

過去，我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠然，經(jīng)過多年的投入，他們已經(jīng)建立起了難以逾越的優(yōu)勢(shì)。但除此以外，如上所述，英偉達(dá)還有很多隱形護(hù)城河，NVLink就是其中的一個(gè)，一個(gè)為GPU到GPU互聯(lián)提供高速連接的技術(shù)。

在摩爾定律逐漸失效，但對(duì)算力要求越來越高的當(dāng)下，這種互聯(lián)顯得尤為必要。

按照英偉達(dá)在官方網(wǎng)站中表示，NVLink 是全球首創(chuàng)的高速GPU 互連技術(shù)，為多GPU 系統(tǒng)提供另一種選擇，與傳統(tǒng)的PCI-E 解決方案相比，速度方面擁有顯著提升。使用NVLink 連接兩張NVIDIA GPU，即可彈性調(diào)整記憶體與效能，滿足專業(yè)視覺運(yùn)算最高工作負(fù)載的需求。

相關(guān)資料顯示，NVLink 最初是一種將 Nvidia GPU 卡上的內(nèi)存組合在一起的方法，最終 Nvidia Research 實(shí)現(xiàn)了一個(gè)交換機(jī)來驅(qū)動(dòng)這些端口，允許 Nvidia 以杠鈴?fù)負(fù)洌╞arbell topology ）連接兩個(gè)以上的 GPU，或以十字交叉方形拓?fù)洌╟risscrossed square topology）連接四個(gè) GPU，這種拓?fù)鋷资陙硗ǔＳ糜趧?chuàng)建基于 CPU 的雙插槽和四插槽服務(wù)器。

幾年前，AI 系統(tǒng)需要八個(gè)或十六個(gè) GPU 共享內(nèi)存，以簡化編程，并使這些 GPU 能夠以內(nèi)存速度（而不是網(wǎng)絡(luò)速度）訪問數(shù)據(jù)集。因此，實(shí)驗(yàn)室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平臺(tái)上迅速商業(yè)化。

目前，NVLink可在 GPU 之間以每秒 1.8 TB 的速度傳輸數(shù)據(jù)。此外，還有一個(gè) NVLink 機(jī)架級(jí)交換機(jī)，能夠在無阻塞計(jì)算結(jié)構(gòu)中支持多達(dá) 576 個(gè)完全連接的 GPU。通過 NVLink 連接的 GPU 稱為“pod”，表示它們有自己的數(shù)據(jù)和計(jì)算域。

其實(shí)除了Nvlink以外，還有兩種連接GPU的方法，分別是PCI總線和Server-to-Server互聯(lián)。據(jù)了解，標(biāo)準(zhǔn)服務(wù)器通常可以在 PCI 總線上支持 4-8 個(gè) GPU。通過使用GigaIO FabreX 內(nèi)存結(jié)構(gòu)等技術(shù)，可以將這個(gè)數(shù)字增加到 32 個(gè)。

除此以外，以太網(wǎng)或 InfiniBand可以連接包含 GPU 的服務(wù)器。這種連接級(jí)別通常稱為橫向擴(kuò)展，其中較快的多 GPU 域通過較慢的網(wǎng)絡(luò)連接以形成大型計(jì)算網(wǎng)絡(luò)。

其實(shí)自從比特開始在機(jī)器之間移動(dòng)以來，以太網(wǎng)一直是計(jì)算機(jī)網(wǎng)絡(luò)的主力。最近，通過引入超級(jí)以太網(wǎng)聯(lián)盟，該規(guī)范已被推動(dòng)以提供高性能。事實(shí)上，英特爾已經(jīng)在以太網(wǎng)上插上了互連旗幟，因?yàn)橛⑻貭?Gaudi -2 AI 處理器在芯片上擁有 24 個(gè) 100 千兆以太網(wǎng)連接。

不過，Nvidia 沒有加入超級(jí)以太網(wǎng)聯(lián)盟，因?yàn)樗麄冊(cè)?2019 年 3 月收購 Mellanox 后，基本上獨(dú)占了高性能 InfiniBand 互連市場。超級(jí)以太網(wǎng)聯(lián)盟旨在成為其他所有人的“InfiniBand”。值得一提的是，英特爾曾經(jīng)高舉 InfiniBand 大旗。

因此在這種情況下，對(duì)于其他人來說，除了用于連接 MI300A APU 的 AMD Infinity Fabric 之外，沒有其他選擇。與 InfiniBand/以太網(wǎng)的情況類似，需要某種“超級(jí)”競爭對(duì)手聯(lián)盟來填補(bǔ)非 Nvidia 的“pod 空缺”。而這正是UALink推出的重要原因。

什么是UALink？

超級(jí)加速器鏈（Ultra Accelerator Link，UALink）同樣是一種可提高新一代AI/ML集群性能的高速加速器互連技術(shù)。八家發(fā)起廠商（和超級(jí)以太網(wǎng)聯(lián)盟一樣，我們也沒有在UAlink聯(lián)盟中看到英偉達(dá)的身影）也成立了一個(gè)開放行業(yè)標(biāo)準(zhǔn)機(jī)構(gòu)來制定相關(guān)技術(shù)規(guī)范，以促進(jìn)新使用模式所需的突破性性能，同時(shí)支持?jǐn)?shù)據(jù)中心加速器用開放生態(tài)系統(tǒng)的發(fā)展。

在他們看來，發(fā)起這個(gè)標(biāo)準(zhǔn)很有必要。因?yàn)殡S著AI計(jì)算需求的增長，擁有穩(wěn)健、低延遲且可高效縱向擴(kuò)展的網(wǎng)絡(luò)，從而輕松將計(jì)算資源添加到單個(gè)實(shí)例中至關(guān)重要。而針對(duì)縱向擴(kuò)展功能制定開放的行業(yè)標(biāo)準(zhǔn)規(guī)范，有助于為AI工作負(fù)載創(chuàng)建開放的高性能環(huán)境，從而提供盡可能高的性能。

正是由于這個(gè)原因，UALink和行業(yè)規(guī)范對(duì)于新一代AI數(shù)據(jù)中心用AI和機(jī)器學(xué)習(xí)、HPC和云應(yīng)用程序的接口標(biāo)準(zhǔn)化及其實(shí)現(xiàn)至關(guān)重要。該工作組將制定相應(yīng)的規(guī)范來界定AI計(jì)算容器組中加速器與交換機(jī)之間進(jìn)行縱向擴(kuò)展通信所需的高速低延遲互連。

從相關(guān)資料可以看到，Ultra Accelerator Link 聯(lián)盟的核心于去年 12 月就已經(jīng)建立，當(dāng)時(shí) CPU 和 GPU 制造商 AMD 和 PCI-Express 交換機(jī)制造商博通表示，博通未來的 PCI-Express 交換機(jī)將支持 xGMI 和 Infinity Fabric 協(xié)議，用于將其 Instinct GPU 內(nèi)存相互連接，以及使用 CPU NUMA 鏈接的加載/存儲(chǔ)內(nèi)存語義將其內(nèi)存連接到 CPU 主機(jī)的內(nèi)存。相關(guān)消息顯示，這將是未來的“Atlas 4”交換機(jī)，它將遵循 PCI-Express 7.0 規(guī)范，并于 2025 年上市。博通數(shù)據(jù)中心解決方案集團(tuán)副總裁兼總經(jīng)理 Jas Tremblay 證實(shí)，這項(xiàng)工作仍在進(jìn)行中，但不要妄下結(jié)論。換而言之，我們不要以為 PCI-Express 是唯一的 UALink 傳輸，也不要以為 xGMI 是唯一的協(xié)議。

AMD 為 UALink 項(xiàng)目貢獻(xiàn)了范圍更廣的 Infinity Fabric 共享內(nèi)存協(xié)議以及功能更有限且特定于 GPU 的 xGMI，而所有其他參與者都同意使用 Infinity Fabric 作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級(jí)副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理 Sachin Katti 表示，由 AMD、博通、思科系統(tǒng)、谷歌、惠普企業(yè)、英特爾、Meta Platforms 和微軟組成的 Ultra Accelerator Link“推動(dòng)者小組”正在考慮使用以太網(wǎng)第 1 層傳輸層，并在其上采用 Infinity Fabric，以便將 GPU 內(nèi)存粘合到類似于 CPU 上的 NUMA 的巨大共享空間中。

我們分享了如何使用以太網(wǎng)將 Pod 鏈接到更大的集群：

如thenextplatform所說，沒人期望將來自多個(gè)供應(yīng)商的 GPU 連接到一個(gè)機(jī)箱內(nèi)，甚至可能是一個(gè)機(jī)架或多個(gè)機(jī)架中的一個(gè)Pod內(nèi)。但 UALink 聯(lián)盟成員確實(shí)相信，系統(tǒng)制造商將創(chuàng)建使用 UALink 的機(jī)器，并允許在客戶構(gòu)建其艙時(shí)將來自許多參與者的加速器放入這些機(jī)器中。您可以有一個(gè)帶有 AMD GPU 的Pod，一個(gè)帶有 Intel GPU 的Pod，另一個(gè)帶有來自任意數(shù)量的其他參與者的自定義加速器Pod。它允許在互連級(jí)別實(shí)現(xiàn)服務(wù)器設(shè)計(jì)的通用性，就像 Meta Platforms 和 Microsoft 發(fā)布的開放加速器模塊 (OAM) 規(guī)范允許系統(tǒng)板上加速器插槽的通用性一樣。

總而言之，UALink 的一大優(yōu)勢(shì)是讓業(yè)內(nèi)其他所有人都有機(jī)會(huì)與 NVIDIA 保持同步。NVIDIA 現(xiàn)在有能力制造NVSwitch盒并將這些 NVSwitch 托盤放入NVIDIA DGX GB200 NVL72等產(chǎn)品中。

英特爾今年的 AI 加速器銷售額達(dá)數(shù)億美元，這可能意味著它只賣出幾萬臺(tái)加速器。AMD 今年將銷售數(shù)十億美元的 MI300X，但這仍然遠(yuǎn)不及 NVIDIA 的 AI 規(guī)模。擁有 UALink 允許像 Broadcom 這樣的公司制造 UALink 交換機(jī)來幫助其他公司擴(kuò)大規(guī)模，然后在多家公司的加速器上使用這些交換機(jī)。

我們已經(jīng)報(bào)道了 Broadcom Atlas 交換機(jī)計(jì)劃與AMD Infinity Fabric AFL Scale Up 競爭 NVIDIA NVLink 即將出現(xiàn)在 PCIe Gen7 中的 Broadcom 交換機(jī)上。我們?cè)诤唸?bào)中被告知，這些可能會(huì)實(shí)現(xiàn) UALink 的 V1.0。當(dāng)然，UALink V1.0 規(guī)范尚未出臺(tái)。

他們表示，1.0版的規(guī)范將允許在AI容器組中連接不超過1,024個(gè)加速器，支持在容器組中掛載到加速器（例如GPU）的內(nèi)存之間進(jìn)行直接加載和存儲(chǔ)。UALink發(fā)起人工作組已經(jīng)成立了UALink聯(lián)盟，預(yù)計(jì)將在2024年第三季度正式成立。1.0版規(guī)范預(yù)計(jì)將于2024年第三季度推出，并向參加超級(jí)加速器鏈(UALink)聯(lián)盟的公司開放。

CXL怎么辦？

其實(shí)在過去幾年，行業(yè)參與者已經(jīng)承諾過在 PCI-Express 結(jié)構(gòu)上運(yùn)行的 Compute Express Link (CXL) 協(xié)議將提供同樣的功能。例如CXLmem 子集就已經(jīng)提供了 CPU 和 GPU 之間的內(nèi)存共享嗎。

但在分析人士看來，PCI-Express 和 CXL 是更廣泛的傳輸和協(xié)議。

Katti 指出，AI 加速器模塊的內(nèi)存域比 CPU 集群的內(nèi)存域大得多，我們知道 CPU 集群的擴(kuò)展范圍從 2 個(gè)到 4 個(gè)，有時(shí)到 8 個(gè)，很少到 16 個(gè)計(jì)算引擎。許多人認(rèn)為，AI 加速器的 GPU 模塊可擴(kuò)展到數(shù)百個(gè)計(jì)算引擎，并且需要擴(kuò)展到數(shù)千個(gè)。更重要的是，與 CPU NUMA 集群不同，GPU 集群（尤其是運(yùn)行 AI 工作負(fù)載的集群）對(duì)內(nèi)存延遲的容忍度更高。

為此The Next Platform表示，我們不要指望看到 UALinks 將 CPU 捆綁在一起，但沒有理由相信未來的 CXL 鏈接最終不會(huì)成為 CPU 共享內(nèi)存的標(biāo)準(zhǔn)方式——甚至可能跨越不同的架構(gòu)。

這實(shí)際上是為了打破 NVLink 在互連結(jié)構(gòu)內(nèi)存語義方面的壟斷。無論 Nvidia 如何使用 NVLink 和 NVSwitch，它的幾家競爭對(duì)手都需要為潛在客戶提供可靠的替代方案——無論他們是銷售 GPU 還是其他類型的加速器或整個(gè)系統(tǒng)——這些潛在客戶肯定希望為 AI 服務(wù)器節(jié)點(diǎn)和機(jī)架式設(shè)備提供比 Nvidia 互連更開放、更便宜的替代方案。

“當(dāng)我們審視整個(gè)數(shù)據(jù)中心對(duì) AI 系統(tǒng)的需求時(shí)，有一點(diǎn)非常明顯，那就是 AI 模型繼續(xù)大規(guī)模增長，”AMD 數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理 Forrest Norrod 說道?！懊總€(gè)人都可以看到，這意味著對(duì)于最先進(jìn)的模型，許多加速器需要協(xié)同工作以進(jìn)行推理或訓(xùn)練。能夠擴(kuò)展這些加速器對(duì)于推動(dòng)未來大規(guī)模系統(tǒng)的效率、性能和經(jīng)濟(jì)性至關(guān)重要。擴(kuò)展有幾個(gè)不同的方面，但 Ultra Accelerator Link 的所有支持者都非常強(qiáng)烈地感受到，行業(yè)需要一個(gè)可以快速推進(jìn)的開放標(biāo)準(zhǔn)，一個(gè)允許多家公司為整個(gè)生態(tài)系統(tǒng)增加價(jià)值的開放標(biāo)準(zhǔn)。并且允許創(chuàng)新不受任何一家公司的束縛而快速進(jìn)行?！?/p>

毫無疑問，AMD Forrest Norrod說的這家公司就是Nvidia，他們通過投資了InfiniBand，并創(chuàng)建了具有絕對(duì)超大網(wǎng)絡(luò)帶寬的 NVSwitch 來為 GPU 進(jìn)行 NUMA 集群。當(dāng)然，他們最初這樣做的是因?yàn)?PCI-Express 交換機(jī)在總帶寬方面仍然有限。

有趣的是，UALink 1.0 規(guī)范將在今年第三季度完成，屆時(shí) Ultra Accelerator Consortium 也將加入進(jìn)來，擁有知識(shí)產(chǎn)權(quán)并推動(dòng) UALink 標(biāo)準(zhǔn)的發(fā)展。今年第四季度，UALink 1.1 更新將發(fā)布，這將進(jìn)一步提高規(guī)模和性能。目前尚不清楚 1.0 和 1.1 UALink 規(guī)范將支持哪些傳輸，或者哪些將支持 PCI-Express 或以太網(wǎng)傳輸。

使用 NVLink 4 端口的 NVSwitch 3 結(jié)構(gòu)理論上可以在共享內(nèi)存 pod 中跨越多達(dá) 256 個(gè) GPU，但 Nvidia 的商業(yè)產(chǎn)品僅支持 8 個(gè) GPU。借助 NVSwitch 4 和 NVLink 5 端口，Nvidia 理論上可以支持跨越多達(dá) 576 個(gè) GPU 的 pod，但實(shí)際上，商業(yè)支持僅在 DGX B200 NVL72 系統(tǒng)中最多 72 個(gè) GPU 的機(jī)器上提供。

如今，許多公司都在嘗試采用標(biāo)準(zhǔn) PCIe 交換機(jī)并構(gòu)建基于 PCIe 的結(jié)構(gòu)以擴(kuò)展到更多加速器。業(yè)內(nèi)大公司似乎將此視為權(quán)宜之計(jì)。相反，NVIDIA 的 NVLink 更像是業(yè)內(nèi)擴(kuò)展的黃金標(biāo)準(zhǔn)。

現(xiàn)在，UAlink團(tuán)隊(duì)正準(zhǔn)備發(fā)布專有 NVLink 的公開競爭對(duì)手。

所有這些都需要時(shí)間。記者在簡報(bào)會(huì)上問這是否是一個(gè) 2026 年左右的實(shí)施目標(biāo)。2024 年還太早，即使它被融入到產(chǎn)品中，目前也不太可能成為 2025 年初的產(chǎn)品。如果你看看CXL或UCIe，這些標(biāo)準(zhǔn)需要很長時(shí)間才能最終成為產(chǎn)品。2026 年將是一個(gè)快速實(shí)施的時(shí)間。

對(duì)于 AMD 和英特爾等公司來說，這提供了一條復(fù)制 NVLink 和 NVSwitch 功能并與其他公司共享開發(fā)成果的途徑。像博通這樣的公司很可能是最大的贏家，因?yàn)樗ㄎ粸榉?NVIDIA 系統(tǒng)的連接提供商，無論是用于縱向擴(kuò)展還是橫向擴(kuò)展。無論是 AMD 還是英特爾獲勝，博通都在銷售連接。對(duì)于超大規(guī)模企業(yè)來說，無論誰制造端點(diǎn)，投資標(biāo)準(zhǔn)化結(jié)構(gòu)的能力都非常有意義。

順便說一句，在 2019-2020 年期間，行業(yè)考慮將 CXL in-box 和Gen-Z作為擴(kuò)展解決方案。許多當(dāng)年展示 Gen-Z 的人現(xiàn)在都在 AMD 工作，就像 AMD 多年來一直在組建一支團(tuán)隊(duì)，他們看到并一直在努力解決擴(kuò)展挑戰(zhàn)。

希望我們能夠盡快看到 UALink 投入使用。對(duì)啦，多說一句，貌似沒有看到Marvell的身影？

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
LQG15HN6N8J02D	1	Murata Manufacturing Co Ltd	General Purpose Inductor, 0.0068uH, 5%, 1 Element, Air-Core, SMD, 0402, CHIP, 0402	ECAD模型下載ECAD模型	$0.06	查看
SRU1048-150Y	1	Bourns Inc	General Purpose Inductor, 15uH, 30%, 1 Element, Ferrite-Core, SMD, 3939, ROHS COMPLIANT	ECAD模型下載ECAD模型	$1.03	查看
8PCV-03-006	1	TE Connectivity	30A, BARRIER STRIP TERMINAL BLOCK, 1 ROW, 1 DECK, ROHS COMPLIANT	ECAD模型下載ECAD模型	$4.86	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

LQG15HN6N8J02D

Murata Manufacturing Co Ltd

General Purpose Inductor, 0.0068uH, 5%, 1 Element, Air-Core, SMD, 0402, CHIP, 0402