作為“人工智能+”時代的算力基礎設施,智算中心的建設步入了提質(zhì)加速的黃金發(fā)展期。據(jù)不完全統(tǒng)計,僅今年前7個月,我國圍繞土建基礎設施和IT基礎架構等方面的建設內(nèi)容,所發(fā)布的智算中心相關項目中標公告就超過140個。
9月25日—27日,2024年國際信息通信展在北京召開,智算產(chǎn)業(yè)上下游企業(yè)紛紛展出算力中心及相關配套設施,以及算力對行業(yè)客戶賦能的具體應用案例。近日,通信世界全媒體記者采訪了中國聯(lián)通研究院副院長唐雄燕,聽其深入解讀智算中心行業(yè)發(fā)展趨勢。
01、技術創(chuàng)新引領邁向十萬卡規(guī)模智算集群
如今,“更大”“更快”“更智能”“更綠色”的算力設施建設,漸成趨勢。
在唐雄燕看來,2024年是智算中心技術迅速崛起的關鍵一年,目前智算中心研究熱點主要集中在模型技術、芯片技術、集群技術、互聯(lián)互通、綠色低碳等方面。
在模型技術方面,2024年以來在細分領域?qū)崿F(xiàn)多次技術創(chuàng)新,特別是模型壓縮及優(yōu)化、分布式訓練及推理、模型參數(shù)及優(yōu)化、數(shù)據(jù)清洗及增強、模態(tài)融合及轉換等環(huán)節(jié)。這些環(huán)節(jié)的技術創(chuàng)新使得模型更加高效、精準,為各種智能應用提供了堅實的基礎。
芯片技術領域也取得較大突破。唐雄燕表示,目前面向智算中心多核、多芯片的算效提升成為焦點,計算芯片、存儲新芯片、互聯(lián)芯片協(xié)同發(fā)展。光計算芯片的突破帶來了更高的計算速度,GPU性能的提升為大規(guī)模數(shù)據(jù)處理提供了強大動力,存算一體技術的發(fā)展有效提高了數(shù)據(jù)處理效率,芯片互聯(lián)技術的進步則實現(xiàn)了更高效的協(xié)同工作。
集群技術的突破同樣令人矚目,2024年以來國內(nèi)外企業(yè)在單體規(guī)模、互聯(lián)互通、綠電低碳等領域不斷突破。在單體規(guī)模上,萬卡及超萬卡集訓迅速推進,Meta、微軟、OpenAI、xAI等多家AI巨頭陸續(xù)宣布建成10萬卡集群。智算中心已從千卡、萬卡,邁入十萬卡大關。在互聯(lián)互通上,則聚焦在集群低時延互連網(wǎng)絡技術方面,包括單體智算中心內(nèi)、跨智算中心協(xié)同兩方面。高速、低時延的網(wǎng)絡連接可減少數(shù)據(jù)傳輸的延遲,提高集群的整體效率,對智算中心集群的性能至關重要。2024年工業(yè)和信息化部等七部門發(fā)文要求加快超大規(guī)模智算中心、突破集群低時延互連網(wǎng)絡技術。而在綠電低碳上,目前設備液冷、協(xié)同優(yōu)化節(jié)能調(diào)度等細分領域成果不斷涌現(xiàn),如三江源綠電智算示范和AI算力低碳節(jié)能管控等。
02、兩大優(yōu)勢顯著下好智算融合“先手棋”
在智算中心的布局和建設方面,中國聯(lián)通有著清晰而宏大的戰(zhàn)略規(guī)劃。中國聯(lián)通圍繞人工智能大模型訓練等前沿場景,持續(xù)加強與全產(chǎn)業(yè)鏈交流合作,打造“全面覆蓋、技術領先、綠色低碳、智慧安全”的適智化能力底座。創(chuàng)新性地提出了“1+N+X”的智算能力布局,聚焦重點城市構建AIDC發(fā)展高地,猶如精心籌劃一盤棋局。
第一式,智算資源廣覆蓋。唐雄燕介紹,中國聯(lián)通“1+N+X”智算能力布局,打造1個超大規(guī)模單體智算中心,集中資源處理大規(guī)模計算任務,提高資源利用效率;N個智算訓推一體樞紐,根據(jù)不同地區(qū)和行業(yè)需求靈活調(diào)配計算資源,實現(xiàn)資源的優(yōu)化配置;屬地化的X個智算推理節(jié)點,充分利用本地計算資源,為本地用戶提供快速、高效的服務,減少數(shù)據(jù)傳輸?shù)难舆t和成本。
第二式,智算網(wǎng)絡強助力。唐雄燕認為,智算布局方面,運營商的獨特優(yōu)勢更在于智算互聯(lián)和算網(wǎng)協(xié)同。為此,中國聯(lián)通推出專為人工智能發(fā)展需求設計的算力智聯(lián)網(wǎng),它包括廣域網(wǎng)、數(shù)據(jù)中心網(wǎng)絡以及實現(xiàn)計算和網(wǎng)絡協(xié)同編排的算網(wǎng)大腦。提供超強運力的全光底座,實現(xiàn)算力資源高效互聯(lián),可以為智算中心提供高性能、高通量、高智能的堅實網(wǎng)絡底座。
03、智算中心三大趨勢顯現(xiàn)
回顧并展望AI和智算中心的發(fā)展脈絡,唐雄燕認為有三大趨勢清晰可見。
一是算力多元異構融合及國產(chǎn)化趨勢。在融合方面,模型訓練、邊緣推理、數(shù)值模擬等不同智能應用需要不同類型算力,進一步要求智算中心CPU、GPU、NPU、FPGA等資源層融合,從而實現(xiàn)資源高效融合及“零損耗”。同時,智算業(yè)務應用深入國民生產(chǎn)生活各個環(huán)節(jié),這在國家安全、產(chǎn)業(yè)升級、技術自主、創(chuàng)新生態(tài)培育等層面有重要意義?!拔覈叨?a class="article-link" target="_blank" href="/tag/AI%E8%8A%AF%E7%89%87/">AI芯片性能與國際領先水平仍有差距,需要持續(xù)加強芯片技術攻關,提升高端AI芯片國產(chǎn)化替代能力。”唐雄燕強調(diào),在這一領域,中國聯(lián)通聯(lián)合產(chǎn)業(yè)界合作伙伴建立產(chǎn)業(yè)聯(lián)盟,服務于多元異構融合和自主可控聯(lián)合創(chuàng)新。
二是智算中心內(nèi)網(wǎng)絡高通量、無阻塞演進趨勢。據(jù)悉,千萬億級參數(shù)模型訓練過程中通信占比最高可達50%、單次迭代通信量達百GB,網(wǎng)絡層0.1%丟包可導致50%算力損失。因此,高性能網(wǎng)絡一直是智算網(wǎng)絡的核心技術訴求,智算中心內(nèi)網(wǎng)絡無損高速互聯(lián)技術是當前及未來3~5年關鍵研究領域。在這一領域,中國聯(lián)通已形成科創(chuàng)布局,對數(shù)據(jù)中心網(wǎng)絡協(xié)議、算力聯(lián)動及智能管控等進行研究,布局高通量、高性能、高智能的算力智聯(lián)網(wǎng)系統(tǒng)。
三是智算中心區(qū)域化協(xié)同演進趨勢。當前,以千萬億級參數(shù)大模型算力資源需求為參考,單體智算中心特別是同構單體智算中心難以滿足日益增長的算力需求。因此,分布式多智算中心協(xié)同訓練成為未來趨勢,多數(shù)據(jù)中心之間的TB級帶寬互聯(lián)、μs級確定時延及高可靠調(diào)度等仍是未來技術演進的熱點。在這一領域,中國聯(lián)通對跨智算中心協(xié)同數(shù)訓進行原創(chuàng)技術和創(chuàng)新方案研究,服務“西訓東推”“中訓邊推”的跨域協(xié)同演進趨勢。今年上半年,中國聯(lián)通已完成3000千米的海量數(shù)據(jù)廣域高通量無損傳輸驗證,下半年將繼續(xù)開展智算中心跨域協(xié)同訓練關鍵技術的現(xiàn)網(wǎng)驗證。
在智算中心領域,中國聯(lián)通積極與業(yè)界伙伴開展多形態(tài)多模式的合作,包括聯(lián)合研發(fā)創(chuàng)新、項目投資共建、數(shù)智資源共享、產(chǎn)業(yè)生態(tài)合作等,共同打造強大的智算中心生態(tài)。例如,中國聯(lián)通與華為合作建成全棧自主創(chuàng)新AI智算中心,展現(xiàn)了技術實力的強強聯(lián)合;與聯(lián)想集團共同投資建設安徽省馬鞍山市的“e聯(lián)矩陣”,開拓了區(qū)域合作的新領域;與28家產(chǎn)業(yè)鏈生態(tài)合作伙伴成立“中國聯(lián)通智算聯(lián)盟”,更是彰顯了與產(chǎn)業(yè)攜手共進的決心和信心。
未來,中國聯(lián)通將持續(xù)擴展產(chǎn)學研合作的廣度和深度,共促智算發(fā)展,共贏智能時代。
*本文刊載于《通信世界》總第952期 2024年9月25日 第18期?
作者:梅雅鑫
責編/版式:王禹蓉
審校:王 濤?梅雅鑫
監(jiān)制:劉啟誠