根據(jù)高盛研究公司(GSR)數(shù)據(jù)報告顯示,AIGC將推動全球國民生產(chǎn)總值(GDP)增長7%,帶來近7萬億美元的GDP增長,并在未來使生產(chǎn)力提高1.5%。面對如此巨大的價值涌現(xiàn),每個行業(yè)、每家企業(yè)都希望率先推開AI時代之門。
而在面向AI大模型的探索中,智算的效率與成本成為關(guān)鍵問題。根據(jù)相關(guān)數(shù)據(jù),每建設100P算力的集群,成本就要達到4億人民幣。根據(jù)此前OpenAI披露的數(shù)據(jù),ChatGPT平均每天的訓練算力花費達到了70萬美元。
目前階段,在AI算力價格持續(xù)上漲的大背景下,千卡、萬卡訓練集群已經(jīng)成為常態(tài)。智算集群開始向五萬卡演進,并且異構(gòu)化開始成為智算集群的新常態(tài)。然而我們可以看到,有大量AI算力因智算網(wǎng)絡的丟包問題被浪費,網(wǎng)絡故障成為拖慢模型訓練進度的常見因素,如何讓網(wǎng)絡適配異構(gòu)算力成為重要難題。
可以說,智算網(wǎng)絡已經(jīng)成為AI基礎設施發(fā)揮能效的關(guān)鍵。想要借助智算推開AI時代的大門,首選需要鑄造智算網(wǎng)絡這把鑰匙。
那么,究竟如何才能破解智算網(wǎng)絡的種種謎題?
不久之前,新華三集團發(fā)布了智算網(wǎng)絡解決方案。這一方案主張充分發(fā)揮“算力×聯(lián)接”的倍增效應,以標準化聯(lián)接支撐多元算力釋放。新華三也通過對算力和聯(lián)接技術(shù)進行最佳的調(diào)優(yōu)與配合,來實踐了對于智算網(wǎng)絡的技術(shù)主張。
從中我們可以看到,開放解耦就是智算網(wǎng)絡的關(guān)鍵解題思路,是一把AI時代的智算網(wǎng)絡之鑰。
難題:異構(gòu)算力互聯(lián)的不確定性
當前,多元異構(gòu)算力已經(jīng)成為AI基礎設施建設的主流選擇。異構(gòu)算力體系可以充分發(fā)揮各種計算設備的優(yōu)勢,具備多樣性、靈活性、高效性等特點,能夠更好發(fā)揮出智算效用。但是,在實際部署中,用戶卻必須面對異構(gòu)算力互聯(lián)的一系列不確定性。這些痛點的存在,極大程度限制了智算網(wǎng)絡,甚至整個智算基礎設施的發(fā)展。
首先,是智算網(wǎng)絡本身的不確定性。
在大規(guī)模智算集群組網(wǎng)的情況下,智算網(wǎng)絡本身會出現(xiàn)延遲、丟包等一系列不確定性因素。根據(jù)相關(guān)數(shù)據(jù)顯示,智算網(wǎng)絡達到1.5%的丟包率就會使數(shù)據(jù)吞吐量降低50%,而智算網(wǎng)絡一旦出現(xiàn)故障,往往需要一周甚至幾周的時間來進行修復。隨著組網(wǎng)規(guī)模的擴大,智算網(wǎng)絡的不確定性問題也會被持續(xù)放大。
其次,是異構(gòu)算力實施效果的不確定性。
異構(gòu)算力已經(jīng)成為智算基礎設施的必然趨勢,但在實際場景中,大多數(shù)用戶對于智算場景都是初次接觸,并不像傳統(tǒng)ICT基礎設施建設那樣可以輕車熟路地進行規(guī)劃、采購、部署。此外,在異構(gòu)算力組網(wǎng)時就會遇到不同廠商組件的組合問題。服務器平臺、GPU、網(wǎng)卡、光模塊、交換機等領(lǐng)域都有大量的廠商參與。最終實施效果能否達到預期,不同廠商的組件能否實現(xiàn)互聯(lián)互通,互通后的性能、可靠性、風險性如何,都是用戶必須面臨的不確定性問題。
再次,是智算網(wǎng)絡與算力之間聯(lián)動的不確定性。
為了保證智算業(yè)務有序平穩(wěn)發(fā)展,網(wǎng)絡必須與算力調(diào)度平臺聯(lián)動起來。而國內(nèi)大多算力廠商沒有配套的網(wǎng)絡設備和平臺。因此,想用網(wǎng)絡打通異構(gòu)算力,則必須具備與多家廠商的CCL(集合通信庫)的兼容對接能力,將算力需求轉(zhuǎn)譯為網(wǎng)絡配置,也就是所謂的“異構(gòu)算網(wǎng)聯(lián)動”。
想要解決異構(gòu)算力互聯(lián)所面臨的一系列難題,實現(xiàn)異構(gòu)算力的效果最大化,最佳選擇就是在提升智算網(wǎng)絡性能的同時,用網(wǎng)絡來貫穿異構(gòu)基礎設施,拉通異構(gòu)算力生態(tài)。為了實現(xiàn)這個目標,就必須推動智算網(wǎng)絡走向開放解耦。
解題:將開放解耦作為智算網(wǎng)絡之鑰
在智算體系當中,網(wǎng)絡是連接 CPU、xPU、內(nèi)存、存儲等資源的基礎設施,貫穿數(shù)據(jù)計算、存儲全流程,是拉通生態(tài)的重要介質(zhì)。網(wǎng)絡的冗余性、高可靠、高彈性,以及以太協(xié)議的開放性,可以幫助技術(shù)不成熟的產(chǎn)品消除限制,確保整個異構(gòu)算力體系達成最優(yōu)效果。
為了實現(xiàn)這個理想化目標,智算網(wǎng)絡必須具備開放解耦的特質(zhì)。
所謂開放,就是在聯(lián)接上實現(xiàn)標準化,確保網(wǎng)絡基礎設施可以打通不同的算力組件,實現(xiàn)無痛、可實施的異構(gòu)組網(wǎng)。
新華三認為,在高性能網(wǎng)絡領(lǐng)域,無損以太網(wǎng)(RoCE)是一個快速普及且被大眾所認可的技術(shù)。基于無損以太網(wǎng)推進智算網(wǎng)絡標準化,在成本、未來演進和生態(tài)豐富度上具備天然的優(yōu)勢。通過無損以太網(wǎng)的標準化建設,用戶可以獲得最具優(yōu)勢的方案,極大拓展選擇上的自由度與實施上的可靠性。除此之外,用戶還可以利用以太網(wǎng)的標準化特質(zhì),逐步構(gòu)建大規(guī)模智算集群。實現(xiàn)根據(jù)業(yè)務需要,對智算集群進行靈活拓展升級。
所謂解耦,則是將網(wǎng)絡平臺與智算平臺進行解耦,增強網(wǎng)絡對于多元異構(gòu)算力的承載能力,并且通過網(wǎng)絡的應用感知和資源分配機制,及時響應各類應用需求,最終可以充分發(fā)揮算力生態(tài)中各領(lǐng)域的優(yōu)勢,實現(xiàn)資源共享和高效協(xié)作,幫助用戶享有先進的AI智算平臺、優(yōu)秀的網(wǎng)絡設備和高品質(zhì)的聯(lián)接介質(zhì)。
基于開放解耦的智算網(wǎng)絡建設理念,新華三推動解決了CPU、GPU、網(wǎng)卡、光模塊等異構(gòu)組件間的互聯(lián)問題,打造了廣泛適配、靈活擴展的網(wǎng)絡聯(lián)接。
開放解耦就像一把鑰匙,可以聯(lián)動智算集群的不同組件,以及智算生態(tài)中的各個角色,最終實現(xiàn)用戶的智算目標價值最大化。帶著這把鑰匙,新華三打造了全新的智算網(wǎng)絡解決方案,為用戶打開了智能世界的大門。
實踐:新華三的智算網(wǎng)絡探索
開放解耦的網(wǎng)絡建設理念,想要最終形成智算網(wǎng)絡解決方案并不容易。它需要兼顧不同的組網(wǎng)方式、不同場景的網(wǎng)絡調(diào)優(yōu)需求,以及不同規(guī)模的智算中心網(wǎng)絡建設需求,并且能夠兼顧解決用戶在規(guī)劃、組網(wǎng)、用網(wǎng)、運維等不同階段的技術(shù)要求。
最終,新華三聚焦網(wǎng)絡優(yōu)勢,提供了強大、靈活、多元且具備高支撐度的異構(gòu)算力互聯(lián)架構(gòu),探索出了全新的智算網(wǎng)絡解決方案。
如上文所說,對于異構(gòu)算力互聯(lián)來說,用戶有生態(tài)開放、平臺解耦、算網(wǎng)協(xié)同三方面的主要訴求。而新華三智算網(wǎng)絡解決方案,恰好可以應對這些痛點。
在基于以太協(xié)議進行標準化智算組網(wǎng)領(lǐng)域,由于用戶需要實現(xiàn)不同的組網(wǎng)架構(gòu),因此需要獲得多元可靠的網(wǎng)絡產(chǎn)品。為此,新華三可以提供多元化的產(chǎn)品布局,提供支持200G/400G/800G不同端口密度的盒式產(chǎn)品/框式產(chǎn)品,以及先進架構(gòu)DDC(Distributed Disaggregated Chassis)產(chǎn)品,提供多種組網(wǎng)架構(gòu),滿足不同規(guī)模、不同智算平臺、不同建設環(huán)境的客戶的需要。
在用網(wǎng)階段,用戶需要負載多樣化的網(wǎng)卡,實現(xiàn)負載均衡。
為此,新華三智算網(wǎng)絡解決方案帶來了全局負載均衡技術(shù),可以帶來極致的帶寬利用率,從而解決傳統(tǒng)智算網(wǎng)絡中通信流量擁塞敏感性高、低時延、高吞吐等需求,易導致負載分擔不均、整網(wǎng)吞吐下降等問題。
同時,針對不同智算場景,新華三會提供最適合的負載均衡技術(shù)組合,合理調(diào)整流量的帶寬利用問題,提升智算中心算力規(guī)模和效率。比如說,可以應用SprayLink解決鏈路均衡的問題,通過實時監(jiān)控LACP/ECMP中各物理鏈路的帶寬利用率,出口隊列,緩存占用,傳輸時延等精細化數(shù)據(jù),對大象流做到基于Per-Packet方式的動態(tài)負載分擔,將每個數(shù)據(jù)包分配到當時資源最優(yōu)的鏈路上,從而實現(xiàn)鏈路寬帶利用率提升至95%的效果。
新華三認為,目前最優(yōu)的負載均衡技術(shù)是DDC(Disaggregated Distributed Chassis分布式解耦機框)。它能將傳統(tǒng)框式交換機的主控、網(wǎng)板、線卡分解為分布式的模塊化部件,以提高網(wǎng)絡的靈活性、可擴展性和性能。DDC基于信元交換,任何協(xié)議的流量在進入DDC架構(gòu)時都可被切成等分大小的信元,在內(nèi)部多條鏈路上負載,完全解決了Hash極化問題,可以實現(xiàn)100%的負載分擔。在流量發(fā)出時,信元又將重組為原始數(shù)據(jù)。信元交換無視數(shù)據(jù)協(xié)議,不會產(chǎn)生亂序,對GPU和網(wǎng)卡都是天然解耦的。
此外,DDC架構(gòu)擴展性強,傳統(tǒng)框式設備無論如何設計,其容納的端口都是有限的。而將其拆解之后,通過橫向擴展可以支持數(shù)千個200G/400G端口,且最大可支持32K(400G)GPU卡,這是框式設備無法實現(xiàn)的,也可以大幅降低部署難度和功耗。新華三DDC產(chǎn)品擁有獨立的高性能控制平面,可以實現(xiàn)網(wǎng)元失效后us級別的收斂,以及網(wǎng)元上線的快速即插即用,可靠性和靈活度均能實現(xiàn)業(yè)界領(lǐng)先。
在異構(gòu)算網(wǎng)協(xié)同領(lǐng)域,新華三智算網(wǎng)絡解決方案能夠支持異構(gòu)GPU/網(wǎng)卡的算網(wǎng)路徑協(xié)同能力。一方面可以利用負載均衡來提升網(wǎng)絡利用率,另一方面還能夠通過控制器分析,主動進行選路與規(guī)劃仿真,從上帝視角實現(xiàn)整網(wǎng)的協(xié)同處理。
除此之外,為了實現(xiàn)開放解耦的目標,新華三還搭建了業(yè)界最開放的生態(tài)合作環(huán)境。其各條產(chǎn)品線都采用了多家合作伙伴的交付件,包括GPU、網(wǎng)卡、光模塊、交換芯片?;谶@樣的產(chǎn)業(yè)優(yōu)勢,新華三還實現(xiàn)了能夠代替客戶驗證異構(gòu)算力環(huán)境的兼容性。
新華三制定了智算網(wǎng)絡異構(gòu)連通專項測試,可對光模塊、電纜進行高可靠性測試驗證,從而解決了與網(wǎng)卡互聯(lián)互通的問題,為客戶提供一套經(jīng)過驗證過的交付方案。
通過在技術(shù)、產(chǎn)品、生態(tài)等環(huán)節(jié)踐行開放解耦,新華三成功破解了異構(gòu)算力互聯(lián)的時代謎題,將AI基礎設施的不確定性,換做智能時代產(chǎn)業(yè)價值的確定性。