久久久久久久久久国产精品免费,久久人人爽爽人人爽人人片av,亚洲av产在线精品亚洲第一站

日前，摩爾線程宣布AI旗艦產(chǎn)品夸娥（KUAE）智算集群解決方案實(shí)現(xiàn)重大升級(jí)，從千卡級(jí)別大幅擴(kuò)展至萬卡規(guī)模。該集群以全功能GPU為底座，專為萬億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)，旨在打造能夠承載萬卡規(guī)模、具備萬P級(jí)浮點(diǎn)運(yùn)算能力的國產(chǎn)通用加速計(jì)算平臺(tái)。

“摩爾線程推出夸娥（KUAE）萬卡智算集群解決方案，希望能夠建設(shè)一個(gè)規(guī)模超萬卡、場景更通用、生態(tài)兼容好的加速計(jì)算平臺(tái)，并優(yōu)先解決大模型訓(xùn)練的難題”，摩爾線程創(chuàng)始人兼CEO張建中表示：“夸娥萬卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖，可為各行各業(yè)數(shù)智化轉(zhuǎn)型提供澎湃算力。”

AI大模型持續(xù)擴(kuò)展趨勢(shì)下，萬卡通用算力成為標(biāo)配

張建中指出，“通用加速計(jì)算平臺(tái)正處在黃金時(shí)刻，我們看到了Scaling Law這個(gè)演進(jìn)規(guī)律：需要單點(diǎn)規(guī)模夠大并且通用的算力，才能快速跟上技術(shù)演進(jìn)變化。如果規(guī)模夠大、計(jì)算通用、生態(tài)兼容這三點(diǎn)都做好的話，對(duì)使用者來說就是非常好用的平臺(tái)?！?/p>

摩爾線程創(chuàng)始人兼CEO 張建中

所謂萬卡集群，是指由一萬張及以上的計(jì)算加速卡（如GPU）組成的高性能計(jì)算系統(tǒng)，用以訓(xùn)練基礎(chǔ)大模型。該類集群充分整合高性能GPU計(jì)算、高性能RDMA網(wǎng)絡(luò)、高性能并行文件存儲(chǔ)、智算平臺(tái)等關(guān)鍵技術(shù)，將底層基礎(chǔ)設(shè)施整合成為一臺(tái)“超級(jí)計(jì)算機(jī)”，可支持千億級(jí)甚至萬億級(jí)參數(shù)規(guī)模的大模型訓(xùn)練，有助于大幅壓縮大模型訓(xùn)練時(shí)間，以實(shí)現(xiàn)模型能力的快速迭代。

一些重要的趨勢(shì)正在演進(jìn)：一方面，Transformer架構(gòu)仍在加速進(jìn)步，它雖然是目前的主流架構(gòu)，但是并不會(huì)大一統(tǒng)，其他創(chuàng)新架構(gòu)仍在不斷出現(xiàn)，如Mamba、RWKV和RetNet等，旨在提升計(jì)算效率，加速迭代創(chuàng)新。

另一方面，AI+3D+HPC在實(shí)現(xiàn)加速融合，從而帶來計(jì)算范式的變化。比如AI+3D、AI+仿真計(jì)算、AI+FP64科學(xué)計(jì)算等，這些都需要通用加速計(jì)算平臺(tái)，才能滿足更多場景對(duì)多元計(jì)算的需求。

應(yīng)對(duì)上述趨勢(shì)，一個(gè)“大且通用”的加速計(jì)算平臺(tái)越來越成為標(biāo)配，以縮短訓(xùn)練時(shí)間，實(shí)現(xiàn)模型能力的快速迭代。

國際頭部公司正在積極部署千卡乃至超萬卡規(guī)模的計(jì)算集群，比如：Google推出的超級(jí)計(jì)算機(jī) A3 Virtual Machines，擁有26000塊 Nvidia H100 GPU，同時(shí)基于自研芯片搭建了TPUv5p 8960卡集群；Meta 今年初公布了2個(gè)24576塊Nvidia H100的集群，用于支持下一代生成式Al模型的訓(xùn)練。

國內(nèi)市場方面，通信運(yùn)營商、頭部互聯(lián)網(wǎng)、大型AI研發(fā)企業(yè)、AI初創(chuàng)企業(yè)等都在超萬卡集群的建設(shè)和使用過程中不斷推動(dòng)技術(shù)革新。例如字節(jié)跳動(dòng)、阿里巴巴、百度等互聯(lián)網(wǎng)公司正在積極推進(jìn)超萬卡集群的建設(shè)。其中，字節(jié)跳動(dòng)搭建了12288 卡的Ampere架構(gòu)訓(xùn)練集群，研發(fā)MegaScale生產(chǎn)系統(tǒng)用于訓(xùn)練大語言模型；科大訊飛在2023年建成了首個(gè)支持大模型訓(xùn)練的超萬卡集群算力平臺(tái)“飛星一號(hào)”。

“國產(chǎn)智算萬卡集群——做難而正確的事”

萬卡集群并不是一萬張GPU卡的簡單堆疊，而是一個(gè)超級(jí)復(fù)雜的系統(tǒng)工程。

張建中指出，萬卡集群當(dāng)前面臨的主要問題，包括超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率、訓(xùn)練高穩(wěn)定與高可用、故障快速定位與可診斷工具、生態(tài)Day0級(jí)快速遷移、未來場景通用計(jì)算等。

這其中涉及諸多的技術(shù)難點(diǎn)，僅以超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率（MFU）以及訓(xùn)練的高穩(wěn)定性這三項(xiàng)技術(shù)細(xì)節(jié)來看：

超大規(guī)模組網(wǎng)互聯(lián)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)等，而不同的網(wǎng)絡(luò)需要采取不同的組網(wǎng)部署方式。超萬卡集群對(duì)參數(shù)面網(wǎng)絡(luò)（計(jì)算網(wǎng)絡(luò)）的要求最高，因?yàn)樗饕糜谟?jì)算節(jié)點(diǎn)之間的參數(shù)交換，要求具備高帶寬無損能力。并且，參數(shù)面網(wǎng)絡(luò)的速度與穩(wěn)定性決定著整個(gè)集群的運(yùn)行效率，要通過各種擁塞控制優(yōu)化機(jī)制、負(fù)載均衡以及故障快速感知等技術(shù)手段，才能保證網(wǎng)絡(luò)傳輸?shù)牧銇G包無損、高吞吐與高穩(wěn)定等。

集群有效計(jì)算效率即MFU方面，大量實(shí)踐表明，集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升，因?yàn)槭芟抻谛酒?jì)算性能（芯片及算子使用效率）、GPU顯存的訪問性能（內(nèi)存和I/O訪問瓶頸）、卡間互聯(lián)帶寬、有效的分布式并行策略等。

在訓(xùn)練的高穩(wěn)定與高可用方面，由于超萬卡集群是由數(shù)千臺(tái)GPU服務(wù)器、數(shù)千臺(tái)交換機(jī)、數(shù)萬根光纖/數(shù)萬顆光模塊構(gòu)成，訓(xùn)練任務(wù)涉及上千萬器件的共同作業(yè)，任何一個(gè)部件比如一個(gè)網(wǎng)卡、一個(gè)光模塊或一個(gè)GPU故障，整個(gè)集群就會(huì)宕機(jī)導(dǎo)致訓(xùn)練中斷。因此，萬卡集群高穩(wěn)定和高可用是個(gè)非常大的難題。

“盡管萬卡建設(shè)難，挑戰(zhàn)巨大，但摩爾線程堅(jiān)信，這是一條難而正確的道路，我們致力于通過夸娥萬卡智算集群，為AI大模型與通用人工智能的發(fā)展提供堅(jiān)實(shí)的支撐”，張建中表示。

以國產(chǎn)全功能GPU為技術(shù)底座，摩爾線程的夸娥萬卡智算解決方案實(shí)現(xiàn)了幾大核心的護(hù)城河：

超大算力，萬卡萬P：單集群規(guī)模超萬卡，浮點(diǎn)運(yùn)算能力達(dá)10Exa-Flops，提供PB級(jí)顯存容量和超高速卡間與節(jié)點(diǎn)間互聯(lián)帶寬，實(shí)現(xiàn)算力、顯存和帶寬的協(xié)同優(yōu)化。
超高穩(wěn)定，月級(jí)長穩(wěn)訓(xùn)練：平均無故障運(yùn)行時(shí)間超15天，支持30天以上長穩(wěn)訓(xùn)練，周均訓(xùn)練有效率超過99%，采用多級(jí)可靠機(jī)制實(shí)現(xiàn)軟硬件故障快速定位和訓(xùn)練任務(wù)快速恢復(fù)。
極致優(yōu)化，超高M(jìn)FU：MFU最高達(dá)60%，通過系統(tǒng)軟件、框架、算法優(yōu)化，支持自適應(yīng)混合并行策略和顯存優(yōu)化，有效縮減計(jì)算時(shí)間和顯存占用，提升訓(xùn)練效率。
全能通用，生態(tài)友好：適用于多種架構(gòu)和模態(tài)的大模型，可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型?；贛USA編程語言和CUDA兼容能力，可實(shí)現(xiàn)新模型快速遷移和生態(tài)適配，加速業(yè)務(wù)上線。

相信AGI到來，致力于全功能的通用加速計(jì)算平臺(tái)

張建中解釋說，集群不是“堆卡“，主要在于單位功耗的算力在提升，而這來源于整個(gè)架構(gòu)的改善、效率的提升，需要整個(gè)系統(tǒng)的調(diào)優(yōu)。實(shí)際上，從千卡到萬卡的升級(jí)建設(shè)過程中，萬卡平均每瓦的算力提升了很多。

同時(shí)，國產(chǎn)集群具有生態(tài)兼容性優(yōu)勢(shì)，開發(fā)者移植到夸娥集群上，幾乎不需要修改代碼，遷移成本接近0，可以在數(shù)小時(shí)之內(nèi)就完成遷移工作，能夠顯著節(jié)約用戶和廠商的資源。

依據(jù)以往千卡級(jí)集群的建設(shè)和使用經(jīng)驗(yàn)來看，如果是首次適配，通常數(shù)小時(shí)之內(nèi)就可以在平臺(tái)上運(yùn)行起來；而對(duì)于已適配的大模型，用戶無需額外工作即可運(yùn)行。對(duì)于性能調(diào)優(yōu)來說，是一個(gè)相對(duì)耗時(shí)的過程，因不同模型和芯片廠商的策略而有不同。

毫無疑問，在算力規(guī)模持續(xù)擴(kuò)大的趨勢(shì)下，網(wǎng)絡(luò)通信能力成為一大關(guān)鍵。特別是對(duì)于建設(shè)萬卡以上的集群來說，交換機(jī)技術(shù)是必備的。

據(jù)了解，摩爾線程目前在卡間互連采用自研MTLink，現(xiàn)在已經(jīng)更迭到2.0版本。交換機(jī)方面，采用的行業(yè)的交換機(jī)芯片搭建集群。張建中表示，摩爾線程后續(xù)會(huì)進(jìn)行自研，或與行業(yè)合作伙伴共同研發(fā)下一代的大規(guī)模交換機(jī)。

他認(rèn)為，AGI一定會(huì)到來。隨著各種不同算法進(jìn)步，真正算力平臺(tái)應(yīng)用場景的建設(shè)，越來越多的大模型應(yīng)用場景會(huì)得到驗(yàn)證。當(dāng)萬卡集群建立起來，Scaling（擴(kuò)展性）向上，準(zhǔn)確度、精度、IQ能力都在提升的話，就會(huì)產(chǎn)生實(shí)際價(jià)值，因此未來的集群建設(shè)會(huì)是逐步提升的過程。

雖然暫時(shí)可能無法完全解決全行業(yè)的算力短缺問題，但張建中表示有決心解決大模型領(lǐng)域缺少大算力的問題。摩爾線程將提供提供全功能的通用加速計(jì)算平臺(tái)，增加行業(yè)選擇，激發(fā)開發(fā)者的創(chuàng)新潛力，鼓勵(lì)他們探索更廣泛的應(yīng)用場景，以促進(jìn)更多的創(chuàng)新。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
AT89C51CC03CA-SLSUM	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44PLCC	ECAD模型下載ECAD模型	$7.71	查看
ATMEGA328PB-AUR	1	Atmel Corporation	RISC Microcontroller, CMOS,	ECAD模型下載ECAD模型	$2.65	查看
ATSAM4S16BA-AU	1	Atmel Corporation	RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64	ECAD模型下載ECAD模型	$7.22	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

AT89C51CC03CA-SLSUM

Microchip Technology Inc

IC MCU 8BIT 64KB FLASH 44PLCC

$7.71

查看

ATMEGA328PB-AUR

Atmel Corporation

RISC Microcontroller, CMOS,

$2.65

查看

ATSAM4S16BA-AU

Atmel Corporation

RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64

$7.22

查看

國產(chǎn)GPU：身處通用計(jì)算黃金時(shí)刻，智算萬卡是最低標(biāo)配

AI大模型持續(xù)擴(kuò)展趨勢(shì)下，萬卡通用算力成為標(biāo)配

“國產(chǎn)智算萬卡集群——做難而正確的事”

相信AGI到來，致力于全功能的通用加速計(jì)算平臺(tái)

推薦器件

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

國產(chǎn)GPU：身處通用計(jì)算黃金時(shí)刻，智算萬卡是最低標(biāo)配

AI大模型持續(xù)擴(kuò)展趨勢(shì)下，萬卡通用算力成為標(biāo)配

“國產(chǎn)智算萬卡集群——做難而正確的事”

相信AGI到來，致力于全功能的通用加速計(jì)算平臺(tái)

推薦器件

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

國產(chǎn)GPU：身處通用計(jì)算黃金時(shí)刻，智算萬卡是最低標(biāo)配

AI大模型持續(xù)擴(kuò)展趨勢(shì)下，萬卡通用算力成為標(biāo)配

相信AGI到來，致力于全功能的通用加速計(jì)算平臺(tái)