欧美激情视频免费观看,丁香伊人五月综合激激激,中文字幕在线无码不卡视频

金磊發(fā)自凹非寺，量子位 | 公眾號(hào) QbitAI

純國產(chǎn)GPU的萬卡集群，它來了！

而且還是國內(nèi)首個(gè)全功能GPU，兼容CUDA的那種。

這個(gè)集結(jié)了超過10000張高性能GPU的超復(fù)雜工程，它的算力有多大？

不賣關(guān)子，直接揭曉答案——總算力超萬P，專為萬億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。

規(guī)模還只是它的特點(diǎn)之一，其它亮眼的地方還包括：

有效計(jì)算效率（MFU）目標(biāo)最高達(dá)60%，可達(dá)到國際水平

周均訓(xùn)練有效率目標(biāo)最高可達(dá)99%以上，平均無故障運(yùn)行15天以上，也是對(duì)標(biāo)業(yè)界最高標(biāo)準(zhǔn)

通用場景設(shè)計(jì)，加速一切大模型

生態(tài)Day0級(jí)快速遷移，與CUDA兼容

這便是江湖人稱“中國版英偉達(dá)”的摩爾線程，對(duì)自家智算中心全棧解決方案夸娥（KUAE）升級(jí)后的最新 “打開方式”。

而縱觀國內(nèi)算力的發(fā)展進(jìn)程，僅是今年上半年便陸陸續(xù)續(xù)有不少“頭部玩家”先后宣布布局萬卡集群，“打群架”之勢，好不熱鬧。

但，萬卡國產(chǎn)GPU，確實(shí)很少見。

加之以生成式AI為主旋律的大模型熱潮當(dāng)?shù)?，Scaling Law的“魔法”仍在持續(xù)奏效，訓(xùn)練GPT-4所需要的GPU數(shù)量便已經(jīng)達(dá)到了25000個(gè)。

以及在大模型架構(gòu)方面也不只是圍繞Transformer，而是呈現(xiàn)出多元化的趨勢；與此同時(shí)，AI、3D和HPC跨技術(shù)與跨領(lǐng)域融合不斷加速……

因此，當(dāng)下的技術(shù)給算力提出了更高、更復(fù)雜、更多樣化的要求——

萬卡集群已然成為大模型玩家的最低標(biāo)配，更是促使國產(chǎn)GPU大步邁入“萬卡時(shí)代”。

正如摩爾線程創(chuàng)始人兼CEO張建中所述：

當(dāng)前，我們正處在生成式人工智能的黃金時(shí)代，技術(shù)交織催動(dòng)智能涌現(xiàn)，GPU成為加速新技術(shù)浪潮來臨的創(chuàng)新引擎。

夸娥萬卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖，可為各行各業(yè)數(shù)智化轉(zhuǎn)型提供澎湃算力。

摩爾線程希望做的事情是解決最難做的事情，幫助國家、幫助行業(yè)解決缺少大算力的問題。

那么前不久剛官宣完千卡集群的摩爾線程，又是如何在這么短的時(shí)間內(nèi)率先跨入“萬卡俱樂部”的呢？

國產(chǎn)GPU萬卡集群，是怎么“煉”成的？

在回答怎么“煉”之前，必須要確認(rèn)的一點(diǎn)便是目標(biāo)——什么樣的萬卡集群才算是好用的。

對(duì)此，張建中基于剛才種種的現(xiàn)狀分析，給出了一個(gè)符合當(dāng)下算力需求的“好用公式”：好用=規(guī)模夠大+計(jì)算通用+生態(tài)兼容

而這也正是最新夸娥（KUAE）萬卡集群所具備的五大特點(diǎn)。

展開來看，首先便是萬卡萬P的超大算力。

具體而言，升級(jí)后的夸娥（KUAE）已經(jīng)實(shí)現(xiàn)了單集群規(guī)模超萬卡，浮點(diǎn)運(yùn)算能力達(dá)到10Exa-Flops。

與此同時(shí)，在GPU顯存和傳輸帶寬方面，顯存容量達(dá)到了PB級(jí)，卡間互聯(lián)總帶寬和節(jié)點(diǎn)互聯(lián)總帶寬同樣也達(dá)到了PB級(jí)，實(shí)現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化，全面提升集群計(jì)算性能。

在大算力之后，便來到了好用的第二個(gè)關(guān)鍵因素——有效計(jì)算效率（MFU）。

MFU作為衡量大型模型訓(xùn)練效率的標(biāo)準(zhǔn)指標(biāo)，能夠直觀地反映整個(gè)集群訓(xùn)練過程的效率。

夸娥（KUAE）萬卡集群通過在系統(tǒng)軟件、框架和算法等多個(gè)層面進(jìn)行深入優(yōu)化，可以成功實(shí)現(xiàn)對(duì)大型模型的高效訓(xùn)練，MFU值最高可達(dá)60%。

具體來說，在系統(tǒng)軟件層面，通過采用計(jì)算與通信效率的極致優(yōu)化技術(shù)，顯著提升了集群的執(zhí)行效率和性能。

在框架和算法層面，該集群能夠支持多種自適應(yīng)的混合并行策略和高效的顯存優(yōu)化技術(shù)，能夠根據(jù)具體的應(yīng)用需求自動(dòng)選擇并配置最佳的并行策略，從而顯著提高訓(xùn)練效率和顯存的利用率。

此外，針對(duì)處理超長序列的大型模型，夸娥（KUAE）萬卡集群利用CP并行技術(shù)和環(huán)形注意力機(jī)制等優(yōu)化手段，有效減少了計(jì)算時(shí)間和顯存使用，進(jìn)一步提升了集群的訓(xùn)練效率。

對(duì)于一個(gè)好用的集群而言，穩(wěn)定性是最不可忽視的。

在這方面，正如剛才我們提到的，夸娥（KUAE）萬卡集群平均無故障運(yùn)行時(shí)間可超過15天，最長可實(shí)現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上，周均訓(xùn)練有效率目標(biāo)為99%。

之所以把目標(biāo)定得那么高，得益于摩爾線程自主研發(fā)的一系列可預(yù)測、可診斷的多級(jí)可靠機(jī)制，包括：

軟硬件故障的自動(dòng)定位與診斷預(yù)測實(shí)現(xiàn)分鐘級(jí)的故障定位

Checkpoint多級(jí)存儲(chǔ)機(jī)制實(shí)現(xiàn)內(nèi)存秒級(jí)存儲(chǔ)和訓(xùn)練任務(wù)分鐘級(jí)恢復(fù)

高容錯(cuò)高效能的萬卡集群管理平臺(tái)實(shí)現(xiàn)秒級(jí)納管分配與作業(yè)調(diào)度等

至于最后一個(gè)最重要的保障，就在于通用性和生態(tài)友好。

據(jù)了解，夸娥（KUAE）萬卡集群專為通用計(jì)算場景量身定制，能夠?yàn)長LM、MoE、多模態(tài)和Mamba等多樣化的架構(gòu)和模態(tài)的大型模型提供加速支持。

此外，這個(gè)集群還采用了高效且用戶友好的MUSA編程語言，并且完全兼容CUDA，配合自動(dòng)化遷移工具M(jìn)usify，能夠?qū)崿F(xiàn)新模型的即時(shí)”Day0”級(jí)遷移，確保了生態(tài)系統(tǒng)的即時(shí)適配性，從而幫助客戶迅速部署其業(yè)務(wù)。

不過有一說一，雖然摩爾線程已經(jīng)解鎖了萬卡集群這一大關(guān)，但這個(gè)過程并非是將GPU堆疊這么簡單，用張建中的話來說就是：

雖然從千卡到萬卡在數(shù)字上只是多了一個(gè)0，但難度上了卻增加了一個(gè)指數(shù)級(jí)，比攀登喜馬拉雅山都難。

例如，單是在超大規(guī)模組網(wǎng)互聯(lián)這個(gè)問題上，超萬卡集群網(wǎng)絡(luò)便會(huì)涉及參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)等。

不同的網(wǎng)絡(luò)需要采取不同的組網(wǎng)部署方式，其中，超萬卡集群對(duì)參數(shù)面網(wǎng)絡(luò)方面的要求是最高。

再如集群有效計(jì)算效率方面，大量實(shí)踐表明，集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升，受限于芯片計(jì)算性能（芯片及算子使用效率）、GPU顯存的訪問性能（內(nèi)存和I/O訪問瓶頸）、卡間互聯(lián)帶寬、有效的分布式并行策略等，集群有效計(jì)算。

除此之外，還會(huì)涉及訓(xùn)練高穩(wěn)定與高可用、故障快速定位與可診斷工具、生態(tài)快速遷移、未來場景通用計(jì)算等種種問題。

總而言之，是有一種牽一發(fā)而動(dòng)全身的感覺。

這就不免讓人發(fā)出疑問：摩爾線程為什么非要啃下這塊硬骨頭？

萬卡很難，但也很必要

千卡集群，不夠用，根本不夠用。

沒錯(cuò)，這正是當(dāng)下隨著大模型以“AI一日，人間一年”的速度迭代更新之下，算力所面臨的最根本問題。

也正因如此，主流的大模型玩家基本上都是配備了萬卡集群，例如：

OpenAI：單集群GPU數(shù)量50000+

谷歌：單集群GPU數(shù)量25000+

Meta：單集群GPU數(shù)量24500+

字節(jié)跳動(dòng)：單集群GPU數(shù)量12888

……

而大模型玩家們要想保持在業(yè)界的領(lǐng)先性，那么自家的大模型的更新迭代的速度就不能太慢，兩周更新一次似乎也是成為了當(dāng)下的常態(tài)。

因此，摩爾線程要做的事情，就是用萬卡集群、全棧方式，打造一個(gè)大模型訓(xùn)練超級(jí)加工廠，可以在算力上匹配當(dāng)下大模型如此快速更迭的速度。

所以摩爾線程為什么要啃下這塊硬骨頭，就不難理解了。

那么隨之而來的另一個(gè)問題便是：為什么摩爾線程能夠做到？

其實(shí)這并非是一蹴而就的事情。

其實(shí)早在2022年的時(shí)候，團(tuán)隊(duì)便已經(jīng)設(shè)定了建集群的大方向與策略，這是因?yàn)楫?dāng)時(shí)A100算力也是處于緊缺的狀態(tài)，國內(nèi)市場急需能夠替代它的產(chǎn)品。

從GPU功能情況來看，摩爾線程是在唯一可以從功能上對(duì)標(biāo)英偉達(dá)的國產(chǎn)GPU企業(yè)。

隨著2023年大模型的火爆，這種GPU集群式的方向就顯得更加正確，畢竟黃仁勛在發(fā)布B200之際就表示“我們需要更大的GPU，如果不能更大，就把更多GPU組合在一起，變成更大的虛擬GPU”。

而摩爾線程更是為此狠狠做了一番準(zhǔn)備，所以現(xiàn)在看來，摩爾線程當(dāng)時(shí)的策略和決定，確實(shí)是具備前瞻性的。

那么最后的最后，便是市場認(rèn)可度的問題了，對(duì)此，在這次活動(dòng)中的一張圖便可以解釋一切：

總而言之，細(xì)數(shù)摩爾線程在走來的這一路，似乎總是前瞻性地、開創(chuàng)性地推動(dòng)著國產(chǎn)GPU的發(fā)展；而這一次，也是毫不意外地再拿下“國內(nèi)首個(gè)”的頭銜。

至于這個(gè)新升級(jí)的萬卡方案是否能把握住高端算力的空窗期，答案就交給市場來回答了。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATXMEGA64A3U-AU	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64	ECAD模型下載ECAD模型	$4.53	查看
MCF5282CVM66J	1	Freescale Semiconductor	IC,MICROCONTROLLER,32-BIT,COLDFIRE CPU,CMOS,BGA,256PIN,PLASTIC		暫無數(shù)據(jù)	查看
FS32K146HAT0MLLT	1	NXP Semiconductors	RISC Microcontroller	ECAD模型下載ECAD模型	$11.53	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ATXMEGA64A3U-AU

Atmel Corporation

RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64