加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01、智能算力成為支撐數(shù)字經(jīng)濟發(fā)展新引擎
    • 02、智算基礎設施建設仍面臨多重挑戰(zhàn)
    • 03、以網(wǎng)補算破解智算基礎設施供給難題
    • 04、先行先試中國電信積極踐行“以網(wǎng)補算”策略
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

【專家特稿】傅志仁:以網(wǎng)補算,構(gòu)筑智算時代新底座

05/31 08:31
1825
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

ChatGPT爆火之后,人工智能AI)浪潮來襲,以大模型為代表的AI方案逐步深入千行百業(yè),算力需求日益攀升,智算基礎設施的重要性進一步凸顯。然而,在智算基礎設施建設過程中,尚面臨組網(wǎng)、通信、能耗、成本等多重挑戰(zhàn),行業(yè)要“以網(wǎng)補算”,通過無處不在的網(wǎng)絡資源,補齊單點算力規(guī)模不足的差距,夯實智算業(yè)務發(fā)展基礎。

01、智能算力成為支撐數(shù)字經(jīng)濟發(fā)展新引擎

在網(wǎng)絡強國和數(shù)字中國戰(zhàn)略的引領下,以人工智能為代表的新一代數(shù)字技術(shù)在我國加速演進,并深度融入生產(chǎn)生活的各個環(huán)節(jié),成為促進數(shù)字經(jīng)濟躍遷式增長的重要驅(qū)動因素。隨著各類通用大模型和垂直大模型的落地應用,算力作為支撐人工智能蓬勃發(fā)展的基座,呈現(xiàn)出前所未有的指數(shù)級增長態(tài)勢。

從算力規(guī)??矗竽P偷陌l(fā)展離不開強大的算力支撐。大模型具有“智慧涌現(xiàn)”能力,即當模型規(guī)模突破特定閾值后,其語言理解、內(nèi)容生成、邏輯推理等類人智能任務的處理能力將顯著提升。例如,擁有1.8萬億參數(shù)的GPT-4在復雜問題的處理能力方面遠超GPT-3,谷歌的Gemini大模型性能也超越其早期版本。隨著參數(shù)規(guī)模從億級提升到萬億級別,算力需求呈現(xiàn)“爆發(fā)式”增長,訓練算力需求從千卡邁向萬卡,微調(diào)算力需求也將達到百卡規(guī)模。以“大力出奇跡”改善模型性能的行業(yè)共識,牽引著算力尤其是智能算力需求快速增長。

據(jù)英偉達預測,未來10年間,深度學習的計算能力將提高100萬倍,即每個月人工智能算力將提升4倍。從算力結(jié)構(gòu)看,人工智能的突破式發(fā)展,推動了傳統(tǒng)算力供給模式的系統(tǒng)性重塑,即由以CPU為主的通用算力供應演變?yōu)椤巴ㄖ浅币惑w化供應,其中智能算力的增長趨勢更加明顯,成為塑造人工智能領域新模式、新業(yè)態(tài)的核心驅(qū)動力。IDC與浪潮信息聯(lián)合發(fā)布的《2022—2023中國人工智能計算力發(fā)展評估報告》指出,我國人工智能計算力繼續(xù)保持快速增長,2022年智能算力規(guī)模達到268EFlops,超過通用算力規(guī)模。預計到2026年智能算力規(guī)模將達到1271.4EFlops,未來五年的年復合增長率達52.3%,而同期通用算力規(guī)模的年復合增長率為18.5%。

我國算力結(jié)構(gòu)的演進趨勢深刻印證了以大模型為代表的智能化應用對智能算力的高度依賴。作為智能算力的主要載體,智算基礎設施的發(fā)展對技術(shù)進步和行業(yè)應用起到了決定性作用。在人工智能向場景化、規(guī)?;?、融合化演進的過程中,預訓練的數(shù)據(jù)體量和算法模型的參數(shù)量還將急劇攀升,智算基礎設施也將逐漸具備高性能、高互聯(lián)、泛在化、多元化等競爭力標簽。

02、智算基礎設施建設仍面臨多重挑戰(zhàn)

從工程角度講,智算基礎設施是指以GPU等AI訓練芯片為基礎構(gòu)建的智能計算服務器集群,它不僅包括計算、存儲、網(wǎng)絡等硬件基礎設施,還包括多樣化的機器學習框架、算法和相關的工具軟件。為形成規(guī)模效應,智算基礎設施往往以集群的形態(tài)對外提供資源服務。然而,在以集群為主要呈現(xiàn)方式的智算基礎設施建設中,還面臨多重挑戰(zhàn)。

首先是組網(wǎng)規(guī)模的挑戰(zhàn)。網(wǎng)絡能力和計算能力應高度匹配,AI大模型訓練需要將數(shù)千甚至數(shù)萬顆GPU芯片互聯(lián),以實現(xiàn)并行計算,集群體量遠超以CPU為主的傳統(tǒng)數(shù)據(jù)中心。例如,采用主流64口交換機的數(shù)據(jù)中心通過3層CLOS架構(gòu)能最大支持6.5萬個服務器接口,而這依然無法滿足我國“十四五”規(guī)劃中提出的“10E級超級計算中心”的組網(wǎng)目標。

其次是通信性能的挑戰(zhàn)。在大模型訓練場景下,機內(nèi)GPU通信和機外集合通信將產(chǎn)生大量通信需求。例如,千億級參數(shù)的大模型并行訓練所產(chǎn)生的集合通信數(shù)據(jù)將達到數(shù)百GB量級,若要在極短時間內(nèi)完成參數(shù)交換,將對GPU與GPU間、GPU與網(wǎng)卡間、網(wǎng)卡與網(wǎng)卡間的超高帶寬互聯(lián)提出較高要求。

此外,網(wǎng)絡擁塞和丟包將嚴重影響GPU計算效率,據(jù)實驗統(tǒng)計,0.1%的網(wǎng)絡丟包率就會帶來50%的算力損失,因此提升通信性能可有效釋放智能算力。再次是能耗和成本的挑戰(zhàn)。模型訓練需要消耗大量能源,因此智算中心比傳統(tǒng)數(shù)據(jù)中心消耗了更多電力。OpenAI曾發(fā)布報告稱,自2012年以來,AI訓練的電力需求每3~4個月就會翻一倍。

前不久,微軟工程師被問及為什么不把集群整體建設在一個地方時,他指出,把超過十萬顆H100芯片集中到同一個地方將導致當?shù)氐碾娋W(wǎng)癱瘓。因此,業(yè)界有觀點認為“比特的盡頭是瓦特”,智算的發(fā)展要以綠電發(fā)展為基礎。此外,智算中心廠房等基礎設施建設,服務器、芯片等設備購置,后期升級運維擴容等,共同構(gòu)成了智算中心龐大的成本體系,因此成本挑戰(zhàn)也不容忽視。

最后是技術(shù)兼容性的挑戰(zhàn)。許多智算中心在市場和自身發(fā)展的過程中,形成深度集成的異構(gòu)技術(shù)體系,芯片平臺、通信協(xié)議、算法模型、應用層面處于一體化垂直的“孤島”狀態(tài),軟硬件系統(tǒng)缺乏兼容性,為智算中心后期的升級、擴展、遷移造成了極大困難。綜上所述,現(xiàn)階段僅依靠單點技術(shù)突破或者“暴力堆疊”芯片的傳統(tǒng)思路已無法解決智算基礎設施的供應難題,需統(tǒng)籌組網(wǎng)、通信、能耗、成本、技術(shù)等多維因素,提供泛在互聯(lián)、融合高效、集約共享的新型基礎設施。在此背景下,“以網(wǎng)補算”應運而生。

03、以網(wǎng)補算破解智算基礎設施供給難題

“以網(wǎng)補算”,即利用無處不在的網(wǎng)絡資源彌補小規(guī)模智能計算的差距,再結(jié)合集中式的算力調(diào)度策略,提升整網(wǎng)智算利用率?!耙跃W(wǎng)補算”是夯實大模型基礎設施的重要發(fā)力方向,包含“入算、算內(nèi)、算間”三個組成部分。對于“入算”部分,靈活利用閑時資源為智算業(yè)務降本增效。當前入云專線存在價格偏高、帶寬使用方式僵化等問題。

“以網(wǎng)補算”方案在持續(xù)完善網(wǎng)絡覆蓋、提供智算高速泛在入口的基礎上,還針對業(yè)務的偶發(fā)性特點,提出定時定向的大規(guī)模數(shù)據(jù)傳輸方案,并通過定制化API接口讓用戶自助申請網(wǎng)絡閑時的帶寬資源,從而將原本帶寬受限的網(wǎng)絡線路彈性擴容至高帶寬專線,并采用資源預約的機制將數(shù)據(jù)傳輸至智算中心進行處理,在滿足超大規(guī)模數(shù)據(jù)彈性傳輸需求的同時,降低算力使用成本、增強用戶自服務能力。

對于“算內(nèi)”部分,重點解決因網(wǎng)絡能力不足導致算力效率降低的技術(shù)問題,以及單點算力規(guī)模偏小導致集群能力不足的產(chǎn)業(yè)問題。目前業(yè)界主要從四個技術(shù)維度解決智算網(wǎng)絡端到端承載的效率問題,即集合通信庫、擁塞控制、流量控制和負載均衡,具體解決方案分別聚焦端側(cè)、網(wǎng)側(cè)和端網(wǎng)協(xié)同側(cè)。例如,端側(cè)通過優(yōu)化集合通信庫減少網(wǎng)絡通信開銷,通過擁塞控制從源頭消除擁塞等。此外,我國智算中心單點規(guī)模普遍偏小,可通過長距RDMA(遠程直接數(shù)據(jù)存?。┑刃录夹g(shù)在城域范圍內(nèi)整合多個小型計算資源,實現(xiàn)區(qū)域內(nèi)智算中心的高效協(xié)同。

對于“算間”部分,建立面向異構(gòu)資源的全國一體化管控機制,實現(xiàn)多用戶、多作業(yè)的任務分發(fā)調(diào)度。一方面提升算間網(wǎng)絡連接能力,實現(xiàn)多云、多算力靈活互聯(lián),提高數(shù)據(jù)傳輸效率;另一方面構(gòu)建面向用戶級、業(yè)務級的層次化任務調(diào)配系統(tǒng),著力實現(xiàn)集分權(quán)分域、業(yè)務感知、統(tǒng)一調(diào)度功能于一體的全國一體化智算調(diào)配平臺。對于算力調(diào)度平臺,業(yè)界已有諸多成功實踐,可有效應對智算中心算力不足的問題,實現(xiàn)全局智算資源在更廣范圍內(nèi)的高效利用。

04、先行先試中國電信積極踐行“以網(wǎng)補算”策略

面對新時代、新業(yè)態(tài)、新要求,中國電信積極踐行云網(wǎng)融合的發(fā)展理念,按照“網(wǎng)是基礎、云為核心、網(wǎng)隨云動、云網(wǎng)一體”的思路不斷探索實踐,目前已演進到以智算網(wǎng)絡為核心的云網(wǎng)融合3.0階段。作為云網(wǎng)一體階段的關鍵策略,中國電信采用“以網(wǎng)補算”,打造面向智算業(yè)務的新型基礎設施,以高性能智算網(wǎng)絡作為提升集群算力性能的關鍵抓手,突破智能算力供給瓶頸。

一是推出具有“泛在接入、隨建隨用、算網(wǎng)協(xié)同、安全可信”特性的“超算快線”產(chǎn)品,提供海量數(shù)據(jù)異屬、異構(gòu)、異域“入算”的統(tǒng)一解決方案;聯(lián)合中科院高能物理研究所和成都國家超算中心,開展LHAASO數(shù)據(jù)基于“超算快線”傳送方案的創(chuàng)新試驗驗證;實現(xiàn)業(yè)界首次40分鐘內(nèi)跨2000千米傳輸1.6TB數(shù)據(jù),為“東數(shù)西算”海量數(shù)據(jù)跨域自動調(diào)度提供了創(chuàng)新解決方案。

二是打造云網(wǎng)融合“大科創(chuàng)裝置”。作為科研專用網(wǎng)絡,“大科創(chuàng)裝置”承擔科研攻關、測試認證、人才培養(yǎng)和用戶體驗等多方面任務,具備覆蓋14個省、40個節(jié)點(20個骨干節(jié)點和20個接入節(jié)點)的廣域互聯(lián)底座,為智算中心各項試驗奠定了堅實的網(wǎng)絡基礎。基于“大科創(chuàng)裝置”,中國電信成功解決了超百千米無損智算網(wǎng)難題,使智算DCN(數(shù)據(jù)通信網(wǎng)絡)由DC內(nèi)走向廣域網(wǎng)。同時,中國電信于2023年10月啟動基于云網(wǎng)融合“大科創(chuàng)裝置”的長距無損交換機技術(shù)驗證,今年2月在北京電信現(xiàn)網(wǎng)完成800G超高速波分技術(shù)驗證。此外,中國電信還在武清、永豐、瀛海三地IDC機房完成數(shù)百億參數(shù)經(jīng)典大模型的分布式訓練任務,對京津冀算力協(xié)同起到積極的推動作用。

三是自研擁塞控制算法CTCC,通過端側(cè)精細化流控與運維工具,有效控制交換機隊列長度、降低小流延遲,實現(xiàn)部分配置下的“零丟包”。針對天翼云智算、超算、高性能存儲業(yè)務場景需求,中國電信依托“大科創(chuàng)裝置”,采用多廠家交換機、GPU服務器和全閃存儲服務器進行了組網(wǎng)測試,開展的800多項測試驗證結(jié)果均符合理論分析與仿真預期。此外,中國電信還基于國家重點研發(fā)計劃“多模態(tài)網(wǎng)絡與通信”中重點專項項目“多模態(tài)智聯(lián)計算網(wǎng)絡技術(shù)研究與驗證”和云網(wǎng)融合聯(lián)合實驗室等平臺,攜手“產(chǎn)學研用”各方加快突破智算網(wǎng)絡關鍵技術(shù)(如存轉(zhuǎn)算一體、意圖驅(qū)動路由、統(tǒng)一總線UB等)。當前,伴隨網(wǎng)絡、計算、存儲技術(shù)的迭代升級,各類資源正在產(chǎn)生深刻的“化學反應”,從相互獨立逐步演進到融合一體,形成以滿足多元化應用需求為目標的智算基礎設施體系。

在此進程中,中國電信基于“入算+算內(nèi)+算間”的發(fā)展思路,“以網(wǎng)補算”,通過無處不在的網(wǎng)絡資源,補齊單點小規(guī)模算力差距,夯實智算業(yè)務發(fā)展基礎。未來,中國電信將持續(xù)發(fā)揮網(wǎng)絡資源優(yōu)勢,深化具有云網(wǎng)融合特征的智算體系建設,縱深推進產(chǎn)業(yè)轉(zhuǎn)型升級,助力數(shù)字經(jīng)濟點燃高質(zhì)量發(fā)展新“引擎”。

*本文刊載于《通信世界》總第944期 2024年5月25日 第10期?原文標題:《以網(wǎng)補算,構(gòu)筑智算時代新底座》

作者:中國電信股份有限公司研究院 傅志仁

責編/版式:蓋貝貝

審校:王 濤?梅雅鑫

監(jiān)制:劉啟誠

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
AT89C51CC03UA-RDTUM 1 Atmel Corporation Microcontroller, 8-Bit, FLASH, 8051 CPU, 60MHz, CMOS, PQFP64, GREEN, VQFP-64

ECAD模型

下載ECAD模型
$9.5 查看
MK60DN512VMC10 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121
$10.69 查看
DSPIC30F6014A-30I/PT 1 Microchip Technology Inc 16-BIT, FLASH, 30 MHz, RISC MICROCONTROLLER, PQFP80, 12 X 12 MM, 1 MM HEIGHT, PLASTIC, MS-026, TQFP-80

ECAD模型

下載ECAD模型
$12 查看

相關推薦

電子產(chǎn)業(yè)圖譜