生成式AI在掀起新一輪科技革命的同時,對現(xiàn)有基礎(chǔ)設(shè)施、產(chǎn)業(yè)生態(tài)等都將帶來深遠影響。數(shù)據(jù)中心就是典型代表,生成式AI越是發(fā)展,對數(shù)據(jù)處理、傳輸、存儲等需求就越大,進而對數(shù)據(jù)中心提出更高要求。Statista數(shù)據(jù)顯示,到2024年,超大規(guī)模數(shù)據(jù)中心數(shù)量可能超過1000個,比五年前增加一倍。
而不光是規(guī)模和數(shù)量上的變化,傳統(tǒng)數(shù)據(jù)中心由內(nèi)而外都在被重塑。正如NVIDIA CEO黃仁勛所說:“每一個數(shù)據(jù)中心、每一臺服務(wù)器,都要具備生成式AI負載的能力”。
現(xiàn)有數(shù)據(jù)中心支撐生成式AI并不是一件容易的事情,因為隨著負載規(guī)模的增大,往往需要在整個數(shù)據(jù)中心層面進行計算,推升了分布式計算場景的需求。這意味著,數(shù)據(jù)中心需要從計算、網(wǎng)絡(luò)、生態(tài)等層面開始顛覆創(chuàng)新和產(chǎn)業(yè)合作,NVIDIA近期的一些進展就已經(jīng)顯現(xiàn)出這些趨勢:首先離不開GPU算力平臺的持續(xù)升級和攀高;其次,顛覆的觸角已經(jīng)深入到數(shù)據(jù)中心網(wǎng)絡(luò)層;第三,在生態(tài)建設(shè)方面,NVIDIA也在與各科技巨頭圍繞生成式AI進行深入合作,共同為開發(fā)、應(yīng)用降低門檻,并且在前沿計算領(lǐng)域展開合作和布局。
“巨型GPU”E級超算性能,助力生成式AI創(chuàng)新
高算力是當前發(fā)展生成式AI的核心需求,而NVIDIA高端GPU已經(jīng)成為生成式AI最核心的算力基座,從其最新的AI超級計算機來看,有望繼續(xù)提升已有算力水平,站上E級AI超算的高度來助力生成式AI創(chuàng)新。
DGX GH200是一款可以提供1 exaflop性能與144 TB共享內(nèi)存的超級計算機,大內(nèi)存技術(shù)、互連技術(shù)、以及針對Transformer大模型的加速優(yōu)化等都是其亮點。它將8個Grace Hopper架構(gòu)的GPU與3個NVLINK互連,形成一個傳輸速度為900GB/s的Pod,然后將32個這樣的Pod進行連接,通過一層開關(guān),連接總共256個Grace Hopper架構(gòu)的GPU。由此產(chǎn)生的ExaFLOPS Transformer Engine具有144 TB的GPU內(nèi)存,相當于是一個“巨型GPU”。
除了1 exaflop性能,DGX GH200超大的內(nèi)存容量值得特別關(guān)注——由256個Grace Hopper超級芯片提供的144TB共享內(nèi)存空間,相比單個NVIDIA DGX A100 320 GB系統(tǒng),內(nèi)存提升了近500倍。這樣大的內(nèi)存,顯然是為了支持更大規(guī)模的模型訓練而準備的,能夠進一步契合生成式AI高帶寬、低延時的訓練場景需求。針對深度學習推薦模型(DLRM)和大數(shù)據(jù)分析工作負載,使用DGX GH200可實現(xiàn)4倍到7倍的加速。
此外,DGX GH200也是第一款將Grace Hopper超級芯片與NVIDIA NVLink Switch System配對使用的超級計算機,采用的正是NVLink互連技術(shù)、NVLink Switch System,才能使256個GH200超級芯片相連,使它們能夠作為一個“超級GPU”整體運行。
這里要說明的是,NVLink是和每一代NVIDIA GPU架構(gòu)同步發(fā)展起來的高速互連技術(shù)。也正是得益于NVIDIA多年來在互聯(lián)技術(shù)的積累,才能夠為生成式AI所需的高彈性、超大AI算力規(guī)模的多GPU系統(tǒng),帶來更大的拓展可能,從而使DGX GH200系統(tǒng)中的所有GPU作為一個整體協(xié)同運行。
當然,軟硬協(xié)同的也是必不可少的方式。除了上述硬件創(chuàng)新,算法引擎方面,GH200通過結(jié)合新的Transformer引擎與Hopper FP8張量核心,在大型NLP模型上能夠提供比A100服務(wù)器高達9倍的AI訓練速度和30倍的AI推理速度。此外還有DGX GH200所包含的NVIDIA軟件,能夠提供一站式解決方案,進一步提升了研發(fā)效率。
為生成式AI量身打造數(shù)據(jù)中心網(wǎng)絡(luò)
數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)成為重要的計算單元,它既包括計算能力,也包括通信能力,更重要的是,通過端到端的優(yōu)化可以讓計算和通信更好地融合,從而使得每一個關(guān)鍵層面都能承擔起生成式AI所需的能力。
作為當今互聯(lián)網(wǎng)誕生的根基,以太網(wǎng)非常有彈性,它可以支持TCP等傳輸層協(xié)議,基于傳統(tǒng)的網(wǎng)絡(luò)丟包機制來緩解網(wǎng)絡(luò)擁塞,對業(yè)務(wù)的性能抖動并不敏感。出現(xiàn)數(shù)據(jù)包丟失時,它會根據(jù)應(yīng)用需求重新傳輸或者直接放棄、幾乎可以從任何地方重連。
但是,高吞吐量的AI負載根本負擔不起丟包的代價,也無法接受抖動問題,因為這些都會對AI負載和性能產(chǎn)生巨大影響。特別是對于生成式AI來說,大模型參數(shù)規(guī)模及數(shù)據(jù)集不斷擴大,當一個大模型跑在成千上萬個GPU集群上時,采用的是分布式、緊耦合的計算方式,這時,整個系統(tǒng)的性能已經(jīng)不僅取決于單一GPU、單一服務(wù)器,更取決于網(wǎng)絡(luò)性能,對數(shù)據(jù)傳輸有更高的要求,這就需要對傳統(tǒng)以太網(wǎng)進行“改造”,構(gòu)建支持RoCE(RDMA over Converged Ethernet)的無損網(wǎng)絡(luò),做到不丟包,支持以太網(wǎng)RDMA,滿足高帶寬和高利用率需求。
NVIDIA最新的Spectrum-X加速網(wǎng)絡(luò)平臺就是這一理念,該平臺的核心是Spectrum-4以太網(wǎng)交換機、BlueField-3 DPU、LinkX高性能線纜/模塊和NVIDIA端到端加速軟件。
其中,BlueField-3 DPU可以對于網(wǎng)絡(luò)中遙測數(shù)據(jù)進行探測,通過主動采集Spectrum-4遙測機制生成的擁塞狀況數(shù)據(jù),在擁塞發(fā)生的早期階段就提前調(diào)節(jié)速率以發(fā)送數(shù)據(jù)。通過實時檢測擁塞點,用可編程擁塞控制技術(shù),來監(jiān)控和控制數(shù)據(jù)流,從而實現(xiàn)不同工作負載之間的性能隔離。
此外,通過可編程擁塞控制實現(xiàn)的業(yè)務(wù)性能隔離技術(shù)也非常關(guān)鍵。在云端跑多個訓練任務(wù)時,不同工作負載會影響彼此性能,而通過任務(wù)性能隔離,能夠優(yōu)化總體性能,讓每個工作負載都達到理想的性能。
在生成式AI驅(qū)動下,數(shù)據(jù)中心向大規(guī)模、高算力、高性能方向飛速發(fā)展,在這一趨勢下,網(wǎng)絡(luò)連接越來越成為數(shù)據(jù)中心的核心競爭力。那么,該如何看待Spectrum-X加速網(wǎng)絡(luò)平臺的創(chuàng)新意義?首先,可以將它理解為NVIDIA針對生成式AI需求創(chuàng)造的一個新的網(wǎng)絡(luò)場景;其次,當前一些成功的大模型已經(jīng)初步驗證了這一無損網(wǎng)絡(luò)架構(gòu)的效能,它為新一代AI工作負載掃清了障礙,可以提高基于以太網(wǎng)AI云的性能與效率,助力數(shù)據(jù)中心滿足超大規(guī)模生成式AI工作負載需求。
生成式AI時代的生態(tài)建設(shè)
在生成式AI驚人的進展面前,企業(yè)對于“事半功倍”的訴求其實一直沒變。不過,現(xiàn)實情況是,生成式AI數(shù)據(jù)的多樣性、指數(shù)級的規(guī)模增長、以及場景的復(fù)雜要求,都對原有的基礎(chǔ)設(shè)施帶來挑戰(zhàn),只有通過有效的軟硬融合創(chuàng)新、先進的生產(chǎn)力結(jié)合、跨生態(tài)的合作等,才能不斷降低生成式AI的開發(fā)和使用門檻。
保護企業(yè)數(shù)據(jù)資產(chǎn),安全創(chuàng)建生成式AI
首先,在生成式AI趨勢下,企業(yè)越來越重視數(shù)據(jù)資產(chǎn)的價值,他們希望貼合不同業(yè)務(wù)應(yīng)用、運行更加多樣化的AI模型。如何消除企業(yè)對于數(shù)據(jù)安全的擔憂?近日,NVIDIA和數(shù)據(jù)云企業(yè)Snowflake展開合作,使得企業(yè)能夠在數(shù)據(jù)駐留的地方創(chuàng)建生成式AI應(yīng)用,安全地構(gòu)建定制化大語言模型。
基于NVIDIA NeMo開源工具包以及GPU加速計算,企業(yè)可以使用其Snowflake賬戶中的數(shù)據(jù),為包括聊天機器人、搜索和總結(jié)等在內(nèi)的生成式AI服務(wù)打造定制化的大語言模型。由于能夠在不移動數(shù)據(jù)的情況下對大語言模型進行自定義,從而使得專有信息在Snowflake平臺內(nèi)得到充分保護和管理。
在數(shù)據(jù)云中擴展AI功能——這相當于是NVIDIA和Snowflake共同創(chuàng)建了一個“AI工廠”,幫助企業(yè)將其寶貴數(shù)據(jù)轉(zhuǎn)化為自定義生成式AI模型。企業(yè)能夠利用自己的專有數(shù)據(jù)(從數(shù)百太字節(jié)到拍字節(jié)的原始數(shù)據(jù)和策劃性商業(yè)信息等),來創(chuàng)建和調(diào)優(yōu)自定義大語言模型,支撐具體的業(yè)務(wù)應(yīng)用和服務(wù),在降低成本和延遲的同時,還可以保障數(shù)據(jù)安全。這一合作有望通過數(shù)據(jù)云平臺,把定制化的生成式AI應(yīng)用帶到不同的垂直領(lǐng)域,形成廣泛落地。
NVIDIA與戴爾的一個合作項目同樣著眼于幫助企業(yè)充分挖掘其數(shù)據(jù)資產(chǎn)潛能,旨在幫助企業(yè)在本地構(gòu)建和使用生成式AI模型。
基于戴爾和NVIDIA基礎(chǔ)設(shè)施和軟件打造的Project Helix,提供一系列包含技術(shù)專長和預(yù)構(gòu)建工具的全棧式解決方案,可以為企業(yè)提供特制的AI模型,使企業(yè)更加快速、安全地從目前還未被充分利用的大量數(shù)據(jù)中獲得價值。通過高度可擴展的高效基礎(chǔ)設(shè)施,企業(yè)可以創(chuàng)造出新一批生成式AI解決方案,也便于他們使用自己的數(shù)據(jù)做出可靠的業(yè)務(wù)決策。
降低Windows開發(fā)者的準入門檻
對于龐大的Windows用戶群來說,生成式AI無疑是近年來的最大變革力和驅(qū)動力。日前在微軟的Build開發(fā)者大會上,NVIDIA和微軟就展示了一系列旨在滿足生成式AI需求的先進技術(shù),包括搭載NVIDIA RTX GPU的Windows 11 PC和工作站等。
對于下一代Windows應(yīng)用來說,必須關(guān)注到開發(fā)人員如何以生成式AI為核心來進行開發(fā),這包括在Windows PC上進行AI開發(fā)的工具、優(yōu)化和部署AI的框架,以及如何進一步推進性能和能效的提升。
Linux操作系統(tǒng)顯然是一個關(guān)鍵,由于AI開發(fā)通常是在Linux上進行的,過去幾年,微軟也致力于讓Linux直接在Windows中運行,也就是適用于Linux的Windows子系統(tǒng)(WSL)。NVIDIA通過為WSL內(nèi)部的整個NVIDIA AI軟件堆棧提供GPU加速和支持,目前,開發(fā)人員已經(jīng)可以使用Windows PC來滿足本地AI開發(fā)需求,并支持GPU加速的WSL深度學習框架。
值得一提的是,NVIDIA RTX GPU在臺式機工作站中提供48GB的大顯存,這意味著開發(fā)人員可以在本地Windows系統(tǒng)上處理以前只能在服務(wù)器上處理的模型,并且還提高了AI模型本地微調(diào)的性能和質(zhì)量。此外,RTX Tensor Core等GPU硬件加速可以加速微軟工具鏈,有助于快速優(yōu)化并部署模型,并且能夠助力AI推理提升性能和能效。
隨著AI即將進入幾乎所有Windows應(yīng)用,NVIDIA與微軟這種軟硬件層面的深度合作和優(yōu)化,能夠進一步為Windows開發(fā)者和用戶降低生成式AI的準入門檻。
多個垂直應(yīng)用中加速落地
除了上述基礎(chǔ)設(shè)施生態(tài)方面的合縱連橫,NVIDIA也在為生成式AI在垂直領(lǐng)域的落地部署鋪平道路。
英矽智能是NVIDIA初創(chuàng)加速計劃的高級成員,該公司正在使用NVIDIA BioNeMo,通過生成式AI加速早期藥物研發(fā)流程。具體而言,是將生成式AI應(yīng)用于臨床前藥物研發(fā)流程的各個環(huán)節(jié):確定藥物化合物可以靶點的分子、生成新的候選藥物、衡量這些候選藥物與靶點的結(jié)合程度,甚至預(yù)測臨床試驗的結(jié)果。使用傳統(tǒng)方法進行這項工作需要花費超過4億美元,耗時長達6年。但是通過生成式AI,英矽智能僅以十分之一的成本和三分之一的時間完成了這些工作,在項目啟動兩年半后就進入了一期臨床試驗。
目前,該公司利用AI平臺研發(fā)的一種候選藥物現(xiàn)在正進入二期臨床試驗,用于治療特發(fā)性肺纖維化。
在內(nèi)容創(chuàng)作領(lǐng)域,NVIDIA和WPP正在開發(fā)一個基于NVIDIA AI技術(shù)的Omniverse內(nèi)容引擎,該引擎將使創(chuàng)作團隊更加快速、高效、大規(guī)模地制作出高質(zhì)量的商業(yè)內(nèi)容,并且完全貼合客戶的品牌。這個新引擎與3D設(shè)計、制造和創(chuàng)意供應(yīng)鏈工具生態(tài)相連,使得WPP的藝術(shù)家和設(shè)計師能夠?qū)?D內(nèi)容創(chuàng)作與生成式AI相結(jié)合,使其客戶能夠以個性化且吸引人的方式接觸消費者。
在游戲領(lǐng)域,NVIDIA基于幾十年來與游戲開發(fā)者合作的經(jīng)驗,正率先在游戲中使用生成式AI。近日,NVIDIA大刀闊斧地推出了全新的AI模型代理服務(wù),也就是為云端及PC游戲角色產(chǎn)生定制化生成式AI模型。通過NVIDIA ACE for Games這個AI模型代理服務(wù),中間件、工具及游戲開發(fā)者可以在游戲和應(yīng)用中建立和部署定制的語音、對話及動畫AI模型,利用AI驅(qū)動的自然語言交互技術(shù),為游戲NPC帶來更高的智能性,從而改變游戲交互體驗。
布局前沿異構(gòu)計算系統(tǒng)
在前不久的ISC大會上,NVIDIA、全球航空業(yè)的領(lǐng)導者羅爾斯·羅伊斯和量子軟件公司Classiq,宣布了一項在量子計算領(lǐng)域的突破,用于提高噴氣發(fā)動機效率。
這一合作的特別之處在于,GPU加速計算與量子計算在統(tǒng)一計算平臺中得以結(jié)合。由NVIDIA Grace Hopper驅(qū)動了量子計算與經(jīng)典計算相結(jié)合的GPU加速量子計算系統(tǒng)DGX Quantum,此外,NVIDIA還提供了一個連接GPU和QPU的開源編程模型NVIDIA CUDA Quantum,以實現(xiàn)量子與經(jīng)典計算的緊密集成。
這一合作的背景是羅爾斯·羅伊斯致力于建造最先進的噴氣發(fā)動機,但量子計算機僅能支持只有幾層的電路深度,于是他引入GPU為量子計算未來做準備。通過采用NVIDIA的量子計算平臺,兩家公司設(shè)計并模擬了世界上最大的計算流體力學(CFD)量子計算電路,該電路測量深度為1000萬層,有39個量子位。
這種同時使用經(jīng)典計算和量子計算的方法,可以模擬噴氣發(fā)動機設(shè)計的性能,有助于加快研發(fā)進程并進行更復(fù)雜的計算。對前沿研究領(lǐng)域所需的超級計算機來說,量子計算和GPU超級計算是異構(gòu)系統(tǒng)中必不可少的組成部分,二者的融合,對于破解科研難題、突破發(fā)現(xiàn)界限非常重要,是未來在科學領(lǐng)域取得突破的關(guān)鍵之一,也是GPU加速計算在更廣范圍的科學與工業(yè)領(lǐng)域又一突破性進展。
寫在最后
生成式AI帶來的顛覆才剛剛開始,國內(nèi)外眾多科技公司紛紛將其視作重大的戰(zhàn)略增長機會。
NVIDIA的AI增長故事開始于GPU,但絕不只有GPU。就像它在打造數(shù)據(jù)中心多元的、集群化的硬件算力節(jié)點時,GPU、CPU、DPU、內(nèi)存技術(shù)、互連技術(shù)、引擎優(yōu)化、配套的軟件工具等等,無一不是關(guān)鍵,才能共同構(gòu)建起了更高性能、更具能效的加速計算系統(tǒng)。有賴于這些積淀,NVIDIA正在形成生成式AI時代的強大增長曲線。