作者?|??香草
編輯?|??漠影
天翼云萬卡方案驅(qū)動萬億參數(shù)大模型訓練
在大模型熱潮的推動下,AI算力呈現(xiàn)出爆炸式的增長,為云計算行業(yè)帶來新的機遇。但同時,如何滿足巨大的算力需求,提供高性能、強穩(wěn)定的解決方案等,也為云廠商帶來新的挑戰(zhàn)。云計算廠商如何在智能云賽道中突圍?智東西7月9日報道,在2024世界人工智能大會(WAIC 2024)期間,天翼云科技有限公司董事長、總經(jīng)理胡志強帶來主題演講,深入解讀了天翼云在智算資源供給、智算服務能力、模型應用生態(tài)三個方面的能力。
具體來說,天翼云自建了豐富的智算資源,并匯集了大量社會智算資源;基于一體化計算加速平臺云驍、一站式智算服務平臺慧聚,能承載萬億參數(shù)規(guī)模的基礎大模型訓練及行業(yè)大模型訓練推理;推出AI云電腦,構(gòu)建紅云大模型開發(fā)者社區(qū),打造開放的模型生態(tài)。
其中在智算服務方面,天翼云聚焦基礎大模型、行業(yè)大模型兩大場景,分別提供模型開發(fā)訓練、訓練推理等服務,通過云驍、慧聚兩大平臺打造了萬卡集群的平臺化能力和解決方案能力,為客戶提供高效、便捷、穩(wěn)定的智算服務。天翼云智算服務具體能解決哪些行業(yè)痛點?是否已經(jīng)在企業(yè)中落地并取得一定成效?帶著這些疑問,我們試圖尋找答案。
01.天翼云萬卡方案破解三大挑戰(zhàn)可訓萬億參數(shù)基礎模型
現(xiàn)階段,大模型的參數(shù)量在Scaling Law的推動下持續(xù)增長。以OpenAI等第一梯隊的大模型公司為例,其一直在擴充訓練數(shù)據(jù)、加大算力投入、堆積模型參數(shù)等方向上前進,尤其是基礎大模型,呈現(xiàn)出參數(shù)越來越大的趨勢。
而隨著模型參數(shù)的增加,對計算資源、存儲能力和網(wǎng)絡帶寬等需求也隨之增加,這對AI基礎設施提出高要求。胡志強談道,天翼云在支撐中國電信星辰大模型訓練過程中,遇到的挑戰(zhàn)主要集中在三個方面:算力、性能和穩(wěn)定性。
算力方面,要訓練一個萬億參數(shù)大模型,至少需要單集群6000卡,甚至萬卡以上規(guī)模,并通過同等規(guī)模的亞毫秒延時級RDMA(遠程直接數(shù)據(jù)存?。┚W(wǎng)絡,才能支撐訓練過程中PB級的數(shù)據(jù)存取。
性能方面,大規(guī)模的分布式訓練對算力、存儲、網(wǎng)絡協(xié)同難度大,模型訓練中生成的Checkpoint文件大、讀寫速度慢等諸多性能問題,導致大模型訓練綜合效率低下。
穩(wěn)定性方面,AI基礎設施軟硬件技術棧復雜,任何中斷或錯誤都可能導致訓練失敗,重新開始不僅浪費時間,也增加了成本。例如,硬件故障率高,且故障難以發(fā)現(xiàn)、恢復速度慢,嚴重影響大模型訓練效率。針對這些痛點,云計算廠商應如何破解?
天翼云交出的答卷,是面向超大規(guī)模參數(shù)基礎大模型開發(fā)訓練的萬卡解決方案。具體來說,天翼云基于單集群萬卡智算中心,結(jié)合一體化計算加速平臺云驍、一站式智算服務平臺慧聚,從基礎設施到平臺,構(gòu)建了基礎大模型訓練解決方案。
在算力層面,天翼云以可橫向擴展的PB級并行文件存儲服務(HPFS),提供高性能、亞毫秒級時延的并行文件存儲能力;以超大規(guī)模二層RDMA網(wǎng)絡,滿足基礎算力的需求;同時,通過對計算、內(nèi)存、通信等方面的多維優(yōu)化,提升了綜合算效。
在性能層面,天翼云對AI框架進行升級,使編譯效率翻倍;通過拓撲感知調(diào)度,大幅提升集合通信效率;基于存儲異步加速,實現(xiàn)Checkpoint文件快速保存及加載。
在穩(wěn)定性層面,基于對200多項指標的實時監(jiān)控,模型訓練單次不中斷運行可達近一周時間;且一旦發(fā)生故障,可迅速斷點續(xù)訓,實現(xiàn)高穩(wěn)定可用運行?;趪a(chǎn)萬卡智算集群和自研智算平臺,天翼云智算服務已經(jīng)具備支撐萬億參數(shù)基礎大模型訓練的能力。
從系統(tǒng)工程上來看,要構(gòu)建國產(chǎn)萬卡集群,并不只是堆疊一萬張卡這么簡單,還涉及到硬件設計、軟件架構(gòu)、網(wǎng)絡通信、能源管理以及系統(tǒng)穩(wěn)定性等多個方面的綜合考量,包括超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計算、長期穩(wěn)定性和高可用性等技術難題。
天翼云提供的萬卡解決方案,展示了國產(chǎn)算力如何通過技術創(chuàng)新來應對這些挑戰(zhàn),這不僅對天翼云自身是巨大的技術突破,也為整個行業(yè)提供了啟示。
02.一站式智算服務行業(yè)大模型訓推三步走
在本屆WAIC上,除了眾多基礎大模型的迭代更新引人注目外,行業(yè)大模型如何推動技術落地,也成為備受關注的話題。不同于基礎大模型注重通用性和廣泛適用性,行業(yè)大模型更側(cè)重于特定行業(yè)的定制化需求。
在落地層面,尤其是面向企業(yè)場景,行業(yè)大模型發(fā)揮了至關重要的作用。
而在技術層面,基礎大模型的開發(fā)重點在于模型的訓練過程,包括模型架構(gòu)的設計、大規(guī)模數(shù)據(jù)集的構(gòu)建等;行業(yè)大模型則更側(cè)重于訓練推理過程,即如何對訓練好的模型面向不同場景進行微調(diào),并應用到實際場景中,解決具體問題。行業(yè)大模型的訓推服務同樣面臨三大挑戰(zhàn):訓練部署工程化復雜、訓推效率低、訓練中斷頻繁。
基于云驍、慧聚兩大平臺,天翼云面向行業(yè)大模型訓推場景提供一站式的智算服務,針對性地破解這三個難題。
在訓練部署工程方面,行業(yè)大模型通常需要處理特定領域的復雜數(shù)據(jù),這要求模型訓練和部署過程中必須考慮數(shù)據(jù)的多樣性和特定性,這帶來數(shù)據(jù)的清洗、標注,模型的適配、訓練、調(diào)優(yōu)、量化及部署等7個環(huán)節(jié)的難題,因此,自動化流程的建立對于簡化訓練部署至關重要。
針對這些復雜環(huán)節(jié),慧聚平臺提供全棧工具鏈,通過預置行業(yè)數(shù)據(jù)集、支持國內(nèi)外主流AI加速硬件、預置多個基礎大模型等能力,實現(xiàn)大模型訓推三步走??蛻糁恍枰?jīng)過選數(shù)據(jù)、選硬件、選模型三個步驟,就可以實現(xiàn)大模型精調(diào)。
在訓練效率方面,大模型的訓推過程需要大量計算資源,如何高效利用這些資源、避免資源浪費,是提高訓推效率的關鍵。例如,在訓推過程中,數(shù)據(jù)需要在不同的處理單元之間傳輸,數(shù)據(jù)傳輸的效率直接影響到整體的訓推速度。
針對模型參數(shù)量大、算子運行效率低、模型開箱性能低等因素,天翼云通過自研AI框架、3D并行加速、自研訓練加速庫、容器調(diào)度優(yōu)化等核心技術,大幅提升訓練效率。為了進一步優(yōu)化模型結(jié)構(gòu)和算法、節(jié)省算力成本、提高模型運行速度,天翼云使用了模型量化壓縮、自研推理加速算子庫、自硏AI推理加速框架等核心技術,讓模型推理效率得到顯著提升。
在訓練連續(xù)性方面,特別是在大規(guī)模訓練過程中,硬件故障是導致訓練中斷的常見原因;同時,軟件或配置錯誤、數(shù)據(jù)輸入錯誤、運行環(huán)境不穩(wěn)定等問題也常常導致訓練的中斷。如何在全鏈路感知故障并準確定位,成為解決訓練頻繁中斷難題的重要挑戰(zhàn)。
天翼云通過全鏈路故障分鐘級檢測、定位、告警,全鏈路日志監(jiān)控與可視化、斷點續(xù)訓快速恢復等核心技術,實現(xiàn)訓推過程全鏈路監(jiān)控?;谝徽臼降闹撬惴漳芰Γ煲碓茷閲鴥?nèi)領先的AI公司提供AI基礎設施層服務,縮短其語音識別模型訓練時間周期并降低算力成本;在科研、制造業(yè)等領域,天翼云智算服務也已經(jīng)落地,幫助客戶進行大模型訓練和微調(diào),降低科研、科技創(chuàng)新成本。
隨著AI技術落地的需求增長,行業(yè)大模型也將迎來更廣闊的應用前景。天翼云提供的一站式智算服務能力不僅能幫助企業(yè)客戶突破瓶頸,也能在實踐過程中不斷汲取經(jīng)驗再進化,推動技術迭代創(chuàng)新。
03.結(jié)語:國家隊出手智算云助力產(chǎn)業(yè)數(shù)智升級
在WAIC 2024現(xiàn)場,天翼云以最新的智算成果亮相,展出了單體萬卡液冷智算池,息壤、云驍、慧聚三大智算平臺,AI云電腦以及基于天翼云智算云底座的星辰大模型等技術成果。
作為云服務國家隊,天翼云沒有拘泥于現(xiàn)有的技術和市場格局,而是以開放的心態(tài)和前瞻的視野,積極探索和引領云計算和AI領域的新趨勢。基于豐富的智算資源儲備、強大的智算服務能力以及開放的模型應用社區(qū),天翼云正在加速布局全新的智算云生態(tài),為千行百業(yè)向智、向新發(fā)展注入國云力量。