加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 國產(chǎn)GPU萬卡集群,是怎么“煉”成的?
    • 萬卡很難,但也很必要
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

首個國產(chǎn)全功能GPU的萬卡集群來了!“中國英偉達”出品

07/05 14:16
1579
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

金磊 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI

國產(chǎn)GPU萬卡集群,它來了!

而且還是國內(nèi)首個全功能GPU,兼容CUDA的那種。

這個集結(jié)了超過10000張高性能GPU的超復(fù)雜工程,它的算力有多大?

不賣關(guān)子,直接揭曉答案——總算力超萬P,專為萬億參數(shù)級別的復(fù)雜大模型訓(xùn)練而設(shè)計。

規(guī)模還只是它的特點之一,其它亮眼的地方還包括:

有效計算效率(MFU)目標最高達60%,可達到國際水平

周均訓(xùn)練有效率目標最高可達99%以上,平均無故障運行15天以上,也是對標業(yè)界最高標準

通用場景設(shè)計,加速一切大模型

生態(tài)Day0級快速遷移,與CUDA兼容

這便是江湖人稱“中國版英偉達”的摩爾線程,對自家智算中心全棧解決方案夸娥(KUAE)升級后的最新 “打開方式”。

而縱觀國內(nèi)算力的發(fā)展進程,僅是今年上半年便陸陸續(xù)續(xù)有不少“頭部玩家”先后宣布布局萬卡集群,“打群架”之勢,好不熱鬧。

但,萬卡國產(chǎn)GPU,確實很少見。

加之以生成式AI為主旋律的大模型熱潮當?shù)?,Scaling Law的“魔法”仍在持續(xù)奏效,訓(xùn)練GPT-4所需要的GPU數(shù)量便已經(jīng)達到了25000個。

以及在大模型架構(gòu)方面也不只是圍繞Transformer,而是呈現(xiàn)出多元化的趨勢;與此同時,AI、3D和HPC跨技術(shù)與跨領(lǐng)域融合不斷加速……

因此,當下的技術(shù)給算力提出了更高、更復(fù)雜、更多樣化的要求——

萬卡集群已然成為大模型玩家的最低標配,更是促使國產(chǎn)GPU大步邁入“萬卡時代”。

正如摩爾線程創(chuàng)始人兼CEO張建中所述:

當前,我們正處在生成式人工智能的黃金時代,技術(shù)交織催動智能涌現(xiàn),GPU成為加速新技術(shù)浪潮來臨的創(chuàng)新引擎。

夸娥萬卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖,可為各行各業(yè)數(shù)智化轉(zhuǎn)型提供澎湃算力。

摩爾線程希望做的事情是解決最難做的事情,幫助國家、幫助行業(yè)解決缺少大算力的問題。

那么前不久剛官宣完千卡集群的摩爾線程,又是如何在這么短的時間內(nèi)率先跨入“萬卡俱樂部”的呢?

國產(chǎn)GPU萬卡集群,是怎么“煉”成的?

在回答怎么“煉”之前,必須要確認的一點便是目標——什么樣的萬卡集群才算是好用的

對此,張建中基于剛才種種的現(xiàn)狀分析,給出了一個符合當下算力需求的“好用公式”好用=規(guī)模夠大+計算通用+生態(tài)兼容

而這也正是最新夸娥(KUAE)萬卡集群所具備的五大特點。

展開來看,首先便是萬卡萬P的超大算力。

具體而言,升級后的夸娥(KUAE)已經(jīng)實現(xiàn)了單集群規(guī)模超萬卡,浮點運算能力達到10Exa-Flops。

與此同時,在GPU顯存和傳輸帶寬方面,顯存容量達到了PB級,卡間互聯(lián)總帶寬和節(jié)點互聯(lián)總帶寬同樣也達到了PB級,實現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化,全面提升集群計算性能。

在大算力之后,便來到了好用的第二個關(guān)鍵因素——有效計算效率(MFU)。

MFU作為衡量大型模型訓(xùn)練效率的標準指標,能夠直觀地反映整個集群訓(xùn)練過程的效率。

夸娥(KUAE)萬卡集群通過在系統(tǒng)軟件、框架和算法等多個層面進行深入優(yōu)化,可以成功實現(xiàn)對大型模型的高效訓(xùn)練,MFU值最高可達60%。

具體來說,在系統(tǒng)軟件層面,通過采用計算與通信效率的極致優(yōu)化技術(shù),顯著提升了集群的執(zhí)行效率和性能。

在框架和算法層面,該集群能夠支持多種自適應(yīng)的混合并行策略和高效的顯存優(yōu)化技術(shù),能夠根據(jù)具體的應(yīng)用需求自動選擇并配置最佳的并行策略,從而顯著提高訓(xùn)練效率和顯存的利用率。

此外,針對處理超長序列的大型模型,夸娥(KUAE)萬卡集群利用CP并行技術(shù)和環(huán)形注意力機制等優(yōu)化手段,有效減少了計算時間和顯存使用,進一步提升了集群的訓(xùn)練效率。

對于一個好用的集群而言,穩(wěn)定性是最不可忽視的。

在這方面,正如剛才我們提到的,夸娥(KUAE)萬卡集群平均無故障運行時間可超過15天,最長可實現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上,周均訓(xùn)練有效率目標為99%。

之所以把目標定得那么高,得益于摩爾線程自主研發(fā)的一系列可預(yù)測、可診斷的多級可靠機制,包括:

硬件故障的自動定位與診斷預(yù)測實現(xiàn)分鐘級的故障定位

Checkpoint多級存儲機制實現(xiàn)內(nèi)存秒級存儲和訓(xùn)練任務(wù)分鐘級恢復(fù)

高容錯高效能的萬卡集群管理平臺實現(xiàn)秒級納管分配與作業(yè)調(diào)度等

至于最后一個最重要的保障,就在于通用性生態(tài)友好

據(jù)了解,夸娥(KUAE)萬卡集群專為通用計算場景量身定制,能夠為LLM、MoE、多模態(tài)和Mamba等多樣化的架構(gòu)和模態(tài)的大型模型提供加速支持。

此外,這個集群還采用了高效且用戶友好的MUSA編程語言,并且完全兼容CUDA,配合自動化遷移工具Musify,能夠?qū)崿F(xiàn)新模型的即時”Day0”級遷移,確保了生態(tài)系統(tǒng)的即時適配性,從而幫助客戶迅速部署其業(yè)務(wù)。

不過有一說一,雖然摩爾線程已經(jīng)解鎖了萬卡集群這一大關(guān),但這個過程并非是將GPU堆疊這么簡單,用張建中的話來說就是:

雖然從千卡到萬卡在數(shù)字上只是多了一個0,但難度上了卻增加了一個指數(shù)級,比攀登喜馬拉雅山都難。

例如,單是在超大規(guī)模組網(wǎng)互聯(lián)這個問題上,超萬卡集群網(wǎng)絡(luò)便會涉及參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)等。

不同的網(wǎng)絡(luò)需要采取不同的組網(wǎng)部署方式,其中,超萬卡集群對參數(shù)面網(wǎng)絡(luò)方面的要求是最高。

再如集群有效計算效率方面,大量實踐表明,集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升,受限于芯片計算性能(芯片及算子使用效率)、GPU顯存的訪問性能(內(nèi)存和I/O訪問瓶頸)、卡間互聯(lián)帶寬、有效的分布式并行策略等,集群有效計算。

除此之外,還會涉及訓(xùn)練高穩(wěn)定與高可用、故障快速定位與可診斷工具、生態(tài)快速遷移、未來場景通用計算等種種問題。

總而言之,是有一種牽一發(fā)而動全身的感覺。

這就不免讓人發(fā)出疑問:摩爾線程為什么非要啃下這塊硬骨頭?

萬卡很難,但也很必要

千卡集群,不夠用,根本不夠用。

沒錯,這正是當下隨著大模型以“AI一日,人間一年”的速度迭代更新之下,算力所面臨的最根本問題。

也正因如此,主流的大模型玩家基本上都是配備了萬卡集群,例如:

OpenAI:單集群GPU數(shù)量50000+

谷歌:單集群GPU數(shù)量25000+

Meta:單集群GPU數(shù)量24500+

字節(jié)跳動:單集群GPU數(shù)量12888

……

而大模型玩家們要想保持在業(yè)界的領(lǐng)先性,那么自家的大模型的更新迭代的速度就不能太慢,兩周更新一次似乎也是成為了當下的常態(tài)。

因此,摩爾線程要做的事情,就是用萬卡集群、全棧方式,打造一個大模型訓(xùn)練超級加工廠,可以在算力上匹配當下大模型如此快速更迭的速度。

所以摩爾線程為什么要啃下這塊硬骨頭,就不難理解了。

那么隨之而來的另一個問題便是:為什么摩爾線程能夠做到?

其實這并非是一蹴而就的事情。

其實早在2022年的時候,團隊便已經(jīng)設(shè)定了建集群的大方向與策略,這是因為當時A100算力也是處于緊缺的狀態(tài),國內(nèi)市場急需能夠替代它的產(chǎn)品。

從GPU功能情況來看,摩爾線程是在唯一可以從功能上對標英偉達的國產(chǎn)GPU企業(yè)。

隨著2023年大模型的火爆,這種GPU集群式的方向就顯得更加正確,畢竟黃仁勛在發(fā)布B200之際就表示“我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU”。

而摩爾線程更是為此狠狠做了一番準備,所以現(xiàn)在看來,摩爾線程當時的策略和決定,確實是具備前瞻性的。

那么最后的最后,便是市場認可度的問題了,對此,在這次活動中的一張圖便可以解釋一切:

總而言之,細數(shù)摩爾線程在走來的這一路,似乎總是前瞻性地、開創(chuàng)性地推動著國產(chǎn)GPU的發(fā)展;而這一次,也是毫不意外地再拿下“國內(nèi)首個”的頭銜。

至于這個新升級的萬卡方案是否能把握住高端算力的空窗期,答案就交給市場來回答了。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
AT89C51CC03CA-RLTUM 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44VQFP
$10.78 查看
STM32F401VET6 1 STMicroelectronics High-performance access line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 84 MHz CPU, ART Accelerator

ECAD模型

下載ECAD模型
$10.53 查看
PIC32MX795F512L-80V/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$12 查看
摩爾線程

摩爾線程

摩爾線程致力于創(chuàng)新面向元計算應(yīng)用的新一代GPU,構(gòu)建融合視覺計算、3D圖形計算、科學(xué)計算及人工智能計算的綜合計算平臺,建立基于云原生GPU計算的生態(tài)系統(tǒng),助力驅(qū)動數(shù)字經(jīng)濟發(fā)展。

摩爾線程致力于創(chuàng)新面向元計算應(yīng)用的新一代GPU,構(gòu)建融合視覺計算、3D圖形計算、科學(xué)計算及人工智能計算的綜合計算平臺,建立基于云原生GPU計算的生態(tài)系統(tǒng),助力驅(qū)動數(shù)字經(jīng)濟發(fā)展。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜