加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 生成式AI驅(qū)動,云基礎(chǔ)設(shè)施進(jìn)入新周期
    • 模型越來越大,呼喚更大規(guī)模計算集群
    • 智算資源短缺,“一云多芯”成為主流選擇
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

騰訊云副總裁:騰訊云智算已服務(wù)國內(nèi)90%大模型廠商

09/06 09:35
1129
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

9月5日,騰訊2024全球數(shù)字生態(tài)大會召開。大會期間,騰訊云正式發(fā)布AI infra品牌“騰訊云智算”,整合騰訊云在HCC、星脈網(wǎng)絡(luò)、AIGC云存儲等優(yōu)勢單項(xiàng)產(chǎn)品能力,為用戶提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開波表示,騰訊云智算目前已經(jīng)服務(wù)了國內(nèi)90%的大模型廠商,也幫助一大批IDC(數(shù)據(jù)中心)廠商向AIDC(智算中心)廠商轉(zhuǎn)型。

生成式AI驅(qū)動,云基礎(chǔ)設(shè)施進(jìn)入新周期

ChatGPT點(diǎn)燃市場熱情、各大廠商和資本競相入場以來,僅僅一年多的時間,生成式AI便已從技術(shù)走向?qū)嵺`,逐漸融入各行各業(yè),成為數(shù)字化轉(zhuǎn)型的重要驅(qū)動力。Gartner對于未來生成式AI的預(yù)測是,到2026年,超過80%的企業(yè)都會接入生成式AI或大模型,然而這一比例在2023年初還不到5%。

“盡管目前生成式AI仍處于一個相對早期的發(fā)展階段,商業(yè)化落地還需進(jìn)一步探索,但從長期來看,生成式AI一定會出現(xiàn)一個大爆發(fā)的‘奇點(diǎn)’?!鄙抽_波指出。他認(rèn)為,生成式AI的快速興起驅(qū)動云基礎(chǔ)設(shè)施建設(shè)進(jìn)入一輪全新的周期。

眾所周知,生成式AI背后需要依靠強(qiáng)大的AI模型和海量數(shù)據(jù),其所需要的云服務(wù)算力成本十分龐大。以ChatGPT為例,用戶每次與ChatGPT互動,產(chǎn)生的算力云服務(wù)成本約0.01美元,如果使用總投資30.2億元、算力500P的數(shù)據(jù)中心來支撐ChatGPT的運(yùn)行,至少需要7-8個這樣的數(shù)據(jù)中心,基礎(chǔ)設(shè)施的投入都是以百億計的。AI大模型無疑為整個云基礎(chǔ)設(shè)施建設(shè)帶來了巨大的市場空間。

“我們的很多業(yè)務(wù)增量都來自于智能計算這一塊。除了GPU之外,圍繞GPU一些存儲、網(wǎng)絡(luò),也是一塊很大的增量?!鄙抽_波坦言。對于大模型訓(xùn)練場景來說,算、存、網(wǎng)是一體的。大模型廠商在模型訓(xùn)練和推理場景中,對云基礎(chǔ)設(shè)施的高性能、高穩(wěn)定性、可運(yùn)維、應(yīng)用性等方面的要求更高,這就要求服務(wù)商不斷打磨自身產(chǎn)品能力,從計算、網(wǎng)絡(luò)、存儲等方面,包括一些軟件框架層面的優(yōu)化,以更好的去滿足這些AI客戶,尤其是大模型廠商的業(yè)務(wù)需求??梢灶A(yù)見,生成式AI或?qū)⑼苿釉苹A(chǔ)設(shè)施的整體升級。

模型越來越大,呼喚更大規(guī)模計算集群

伴隨生成式AI的興起,業(yè)內(nèi)出現(xiàn)一個趨勢:模型參數(shù)規(guī)模越來越大,從百萬級逐步進(jìn)入千萬級,甚至是萬億級。而參數(shù)越大,訓(xùn)練所用的計算資源就越多,這些大模型的訓(xùn)練動輒需要使用成千上萬張GPU卡去做算力支撐,引發(fā)模型廠商的算力焦慮。沙開波指出,智能算力存在比較典型的“木桶短板”效應(yīng),算力的提升不能光靠“堆卡”,而是要讓計算、存儲、網(wǎng)絡(luò)以及上層的框架等各個環(huán)節(jié)全面協(xié)調(diào)配合,才能打造出一個高性能、高帶寬、低延遲的計算集群。

以網(wǎng)絡(luò)能力為例,千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時,傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。為解決網(wǎng)絡(luò)性能問題,各個廠商推出了一系列相關(guān)產(chǎn)品和解決方案。

其中,騰訊云星脈網(wǎng)絡(luò)具備3.2T通信帶寬,可支持10萬卡的超大計算規(guī)模。據(jù)悉,其能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升。數(shù)據(jù)顯示,在穩(wěn)定性和性能上,騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16,是行業(yè)水平的1/3;1分鐘就能完成萬卡checkpoint寫入,數(shù)據(jù)讀寫效率是業(yè)界10倍;千卡集群的通信時間縮短到6%,是業(yè)界一半。

同時,通過整合軟硬件技術(shù)能力,騰訊云智算集群從機(jī)器上架到開始訓(xùn)練可以做到只需1天,相比業(yè)界以月為單位也大為縮短。“我們在做的是在規(guī)模比較大的計算集群里面,把卡的利用率盡可能做到極致,減少閑置算力就是減少用戶成本?!鄙抽_波表示。據(jù)他透露,某模型廠商通過使用騰訊云智算大模型訓(xùn)練集群解決方案將千卡一年的模型訓(xùn)練成本降低了2000萬。

智算資源短缺,“一云多芯”成為主流選擇

當(dāng)前,智算中心被視為如同水和電一般的“新基建”,在全國各地落地開花。據(jù)賽迪顧問統(tǒng)計,截至2024年上半年,國內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心超過250個。智算中心招投標(biāo)相關(guān)事件791起,同比增長高達(dá)407.1%。最新統(tǒng)計顯示,截至5月底,全國規(guī)劃具有高性能計算機(jī)集群的智算中心已達(dá)十余個。

從算力規(guī)模來看,我國智能算力在算力總規(guī)模中的比重超過了30%。盡管智算中心建設(shè)如火如荼,但智算資源的供需矛盾依然存在。“智算中心建設(shè)方通常手里有卡,也有硬件資源。但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有應(yīng)用。

有了卡和硬件,不代表大模型的訓(xùn)練、推理或者AI的應(yīng)用就可以直接‘跑’出來了,還需要配套的軟件能力,要能夠把所有資源高效管理和調(diào)度起來,還得找到最終應(yīng)用場景或者終端客戶?!鄙抽_波分析稱。為彌合智算資源“供”與“需”之間的溝壑,“一云多芯”成為一個主流選擇。

過去,智算集群中的多個模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù),不論是不同廠商芯片算力切分、芯片間通信效率或是根本的模型訓(xùn)練效率問題,都使得算力焦慮在在硬件差異之下被無限放大。

云平臺可以將服務(wù)器芯片等硬件封裝成標(biāo)準(zhǔn)算力,無論底層是x86與ARM指令集的并存、x86或ARM不同廠商架構(gòu)間并存、不同GPU或DPU服務(wù)器并存,抑或是計算節(jié)點(diǎn)與存儲節(jié)點(diǎn)不同芯片架構(gòu)并存,都能給客戶提供體驗(yàn)一致的云計算服務(wù)。比如,騰訊云智算平臺便采用了“一云多芯”架構(gòu),可以適配、管理、調(diào)度多種CPU和GPU芯片,能夠有效降低供應(yīng)鏈風(fēng)險,同時滿足不同業(yè)務(wù)對于不同算力的需求。

“生成式AI的興起給整個云基礎(chǔ)設(shè)施建設(shè)提出了更高的要求,我們希望能夠整合高性能計算、高性能存儲、高性能網(wǎng)絡(luò)等各方面的能力,為企業(yè)用戶提供集‘算、存、網(wǎng)、數(shù)’于一體的技術(shù)底座,幫助大家加速釋放AI生產(chǎn)力。”沙開波說道。

作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
DSPIC33EP512MU814-I/PH 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144

ECAD模型

下載ECAD模型
$13.09 查看
STM32F756ZGY6TR 1 STMicroelectronics High-performance and DSP with FPU, Arm Cortex-M7 MCU with 1 Mbyte of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, HW crypto, SDRAM, TFT

ECAD模型

下載ECAD模型
$12.73 查看
MC56F8345VFGE 1 Freescale Semiconductor 16-bit DSC, 56800E core, 128KB Flash, 60MHz, QFP 128
$22 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜