在人工智能(AI)和智能計(jì)算產(chǎn)業(yè)逐漸成為國家重點(diǎn)發(fā)展領(lǐng)域的當(dāng)下,生成式AI在各行業(yè)的應(yīng)用不斷深入,以“大模型+大算力+大數(shù)據(jù)”為核心的新一代AI發(fā)展模式正在形成。為了適應(yīng)未來計(jì)算資源的融合發(fā)展趨勢,算力基礎(chǔ)設(shè)施的快速發(fā)展變得尤為關(guān)鍵。聯(lián)想作為智能基礎(chǔ)設(shè)施及服務(wù)提供商,正在面向AI、云計(jì)算、大數(shù)據(jù)等多種計(jì)算場景,為中國智算產(chǎn)業(yè)發(fā)展和生態(tài)繁榮,夯實(shí)智算基石。
4月18日,聯(lián)想創(chuàng)新科技大會(huì)(2024 Lenovo Tech World)在上海舉辦。此次大會(huì)上,聯(lián)想發(fā)布了萬全異構(gòu)智算平臺(tái),以突破當(dāng)前計(jì)算瓶頸。并且,聯(lián)想集團(tuán)與中國智能計(jì)算產(chǎn)業(yè)聯(lián)盟共同宣布,發(fā)起成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟,聯(lián)合產(chǎn)業(yè)頭部生態(tài)伙伴共建聯(lián)想萬全生態(tài)。
聯(lián)想攜手中國智能計(jì)算產(chǎn)業(yè)聯(lián)盟,成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟
第十四屆全國政協(xié)委員、中國科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫?,?lián)想集團(tuán)副總裁、中國基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬,分別代表中國智能計(jì)算產(chǎn)業(yè)聯(lián)盟與聯(lián)想集團(tuán)共同啟動(dòng)聯(lián)盟成立;同時(shí)中國科學(xué)院院士、生物信息學(xué)家陳潤生,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授陳文光,中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所所長何寶宏,中國智能計(jì)算產(chǎn)業(yè)聯(lián)盟秘書長安靜,共同參與并見證異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟啟動(dòng)儀式。
異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟啟動(dòng)
據(jù)介紹,異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟旨在攜手成員共同建設(shè)一個(gè)分工合作、規(guī)范有序、安全健康的智算產(chǎn)業(yè)生態(tài),加速大模型推動(dòng)的智算產(chǎn)業(yè)化進(jìn)程,推動(dòng)AI基礎(chǔ)設(shè)施的融合發(fā)展,共同提升中國智算產(chǎn)業(yè)的水平。異構(gòu)智算生態(tài)聯(lián)盟成立之后,將持續(xù)籌備異構(gòu)智算相關(guān)專家研討會(huì)、異構(gòu)智算聯(lián)盟高峰論壇等活動(dòng),深入探討異構(gòu)智算最新產(chǎn)業(yè)趨勢、研究成果和創(chuàng)新方向。
異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟框架由AI芯片層、AI設(shè)備與系統(tǒng)層和AI平臺(tái)與應(yīng)用層,能夠?qū)崿F(xiàn)從IaaS平臺(tái)、AI訓(xùn)練與推理到行業(yè)場景解決方案的全覆蓋。
目前,異構(gòu)智算生態(tài)聯(lián)盟首批共計(jì)16家成員單位,包括10家國產(chǎn)AI芯片廠商。生態(tài)聯(lián)盟成立后,將陸續(xù)發(fā)布異構(gòu)智算最新成果,計(jì)劃推動(dòng)《國際人工智能算力性能排行榜——AIPerf500》評選,共創(chuàng)及發(fā)布《異構(gòu)智算白皮書》以及《2024國家行業(yè)發(fā)展報(bào)告(智能計(jì)算方向)》等內(nèi)容,引導(dǎo)中國智算產(chǎn)業(yè)健康發(fā)展。
聯(lián)想集團(tuán)副總裁、中國基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬表示,智算產(chǎn)業(yè)的高速繁榮發(fā)展,離不開人工智能產(chǎn)業(yè)中每一個(gè)努力拼搏,不斷創(chuàng)新的企業(yè)。聯(lián)想將持續(xù)秉持合作共贏的理念,愿與眾多優(yōu)秀的伙伴們一道,加大資源投入,深耕場景,打磨產(chǎn)品,為中國智算產(chǎn)業(yè)的蓬勃發(fā)展提供堅(jiān)實(shí)基礎(chǔ)。
聯(lián)想集團(tuán)副總裁、中國基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬
聯(lián)想萬全異構(gòu)智算平臺(tái),五大創(chuàng)新優(yōu)化算力使用效率
面向以大模型為基礎(chǔ)特征的AI 2.0時(shí)代,“大模型+大算力+大數(shù)據(jù)”成為新一代人工智能發(fā)展的基本范式。不過,智能計(jì)算較通用計(jì)算的投入成本、技術(shù)門檻更高,廣大用戶需要一個(gè)新的計(jì)算開發(fā)和管理平臺(tái),能夠集成算力管理與調(diào)度,數(shù)據(jù)治理與模型優(yōu)化、訓(xùn)練精調(diào)和推理應(yīng)用開發(fā)等多層次的能力,為使用者提供更簡單、更高效、更穩(wěn)定的算力體驗(yàn)。
在此背景下,聯(lián)想萬全異構(gòu)智算平臺(tái)應(yīng)運(yùn)而生,其差異化價(jià)值在于能夠以創(chuàng)新技術(shù)突破計(jì)算效率瓶頸。對于用戶而言,異構(gòu)智算平臺(tái)能夠幫助用戶提高應(yīng)用部署速度,降低業(yè)務(wù)TCO(全周期使用成本)。在基礎(chǔ)設(shè)施層面,它能夠提升算力利用率和可用性。
據(jù)了解,聯(lián)想萬全異構(gòu)智算平臺(tái)集成了五大創(chuàng)新技術(shù):算力匹配魔方、GPU內(nèi)核態(tài)虛擬化、聯(lián)想集合通信算法庫、AI高效斷點(diǎn)續(xù)訓(xùn)技術(shù)、AI與HPC集群超級調(diào)度器,分別從不同方面幫助用戶解決問題。
- 算力匹配魔方:為用戶跳過繁雜的算力選擇和驗(yàn)證。
基于海量的硬件評測和AI算子算法集成工作,聯(lián)想構(gòu)建了AI場景與算法與集群硬件三者匹配關(guān)系的算力魔方知識(shí)庫,來標(biāo)識(shí)AI場景、算法、集群配置這三者的匹配關(guān)系。針對不同場景,可以全自動(dòng)規(guī)劃和調(diào)度最佳算法和集群配置,用戶只需輸入場景和數(shù)據(jù),即可自動(dòng)加載最優(yōu)算法和調(diào)度最佳集群配置。
- GPU內(nèi)核態(tài)虛擬化:挖掘處理器潛力,讓vGPU利用率從80%提升到95%。
在AI推理和中小訓(xùn)練中,子任務(wù)通常以虛擬GPU進(jìn)行承載,業(yè)界目前普遍在操作系統(tǒng)層以用戶態(tài)對GPU做虛擬化,而用戶態(tài)虛擬化因不能對GPU做深層控制,會(huì)造成虛擬算力不穩(wěn)定,調(diào)度開銷大等問題,從而造成近20%的算力損耗。
為此,聯(lián)想研究院開發(fā)了在GPU驅(qū)動(dòng)層的內(nèi)核態(tài)虛擬化算法。該算法具備三大革新:一是對算力和顯存精準(zhǔn)隔離的算法能以<3%的誤差精準(zhǔn)控制容器資源。二是在GPU驅(qū)動(dòng)層做資源調(diào)度,去掉在驅(qū)動(dòng)之上不必要的操作。三是在GPU驅(qū)動(dòng)層將虛擬GPU的顆粒度精細(xì)到1%。新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。
- 聯(lián)想集合通信算法庫:突破集群計(jì)算瓶頸,使訓(xùn)練效率提升10%—15%。
在大規(guī)模的AI集群中,性能釋放的最大瓶頸受制于網(wǎng)絡(luò)通信慢。網(wǎng)絡(luò)通信慢會(huì)導(dǎo)致GPU空閑等待,計(jì)算效率降低。針對大規(guī)模集群網(wǎng)絡(luò)通信瓶頸的挑戰(zhàn),聯(lián)想萬全異構(gòu)智算平臺(tái)能自動(dòng)感知集群網(wǎng)絡(luò)拓?fù)?/a>,并選擇和采用經(jīng)聯(lián)想增強(qiáng)的集合通信算法使數(shù)據(jù)傳輸在最佳路徑。以千卡規(guī)模集群為例,采用集成了聯(lián)想集合通信庫的聯(lián)想萬全異構(gòu)智算平臺(tái)做管理調(diào)度,可使網(wǎng)絡(luò)通信效率提升超10%,并且集群規(guī)模越大,效果越顯著。
- AI高效斷點(diǎn)續(xù)訓(xùn)技術(shù):實(shí)現(xiàn)分鐘級AI斷點(diǎn)續(xù)訓(xùn),讓AI集群持續(xù)可用。
據(jù)統(tǒng)計(jì),目前千卡集群每月至少有15次的故障斷點(diǎn)。在常規(guī)的斷點(diǎn)續(xù)訓(xùn)手段下,每次恢復(fù)訓(xùn)練需要幾個(gè)小時(shí),產(chǎn)生的額外費(fèi)用超過百萬元。聯(lián)想萬全異構(gòu)智算平臺(tái)針對故障特征來對數(shù)據(jù)做多級備份,大幅精簡了備份數(shù)據(jù)量,同時(shí)令備份數(shù)據(jù)從最佳路徑被提取。同時(shí),對大量的AI訓(xùn)練故障進(jìn)行了特征采樣,基于AI故障特征庫,開發(fā)了預(yù)測AI訓(xùn)練故障的AI模型,實(shí)現(xiàn)“用AI來預(yù)測AI”。此外,聯(lián)想萬全異構(gòu)智算平臺(tái)集成了從服務(wù)器BMC,存儲(chǔ)管理,網(wǎng)絡(luò)OS的硬件監(jiān)控,到調(diào)度器故障監(jiān)控,再到對AI訓(xùn)練收斂程度的監(jiān)控,對AI故障的抓取能夠做到萬無一失。
由此三大革新,聯(lián)想能將斷點(diǎn)續(xù)訓(xùn)恢復(fù)時(shí)間縮減到分鐘級,大幅提升了訓(xùn)練效率。以千卡集群為例,聯(lián)想每月可節(jié)約上百萬元算力費(fèi)用支出,讓寶貴的AI算力持續(xù)可用。
- AI與HPC集群超級調(diào)度器:破局算力孤島,1小時(shí)內(nèi)自動(dòng)完成跨集群資源調(diào)度和共享。
對于有些同時(shí)擁有AI和HPC算力的用戶,希望能在不同集群間,根據(jù)任務(wù)優(yōu)先級和資源狀況,充分共享利用GPU節(jié)點(diǎn)。然而,由于AI和HPC集群的調(diào)度方式完全不同,用戶在不同集群間共享資源時(shí),既要通曉兩種調(diào)度方法,又要付出大量操作,導(dǎo)致無法實(shí)現(xiàn)資源共享。
聯(lián)想AI與HPC超級調(diào)度器架構(gòu)的精髓之處就是做出能指揮雙類型調(diào)度的最精簡架構(gòu),在AI的K8S調(diào)度和HPC的Slurm調(diào)度之上,能夠切換AI和HPC的調(diào)度溝通,能全局監(jiān)控任務(wù)和動(dòng)態(tài)共享資源,使得用戶可以充分利用基礎(chǔ)設(shè)施的每一分算力。
聯(lián)想萬全異構(gòu)智算平臺(tái),作為一個(gè)能高度自動(dòng)化完成AI全流程開發(fā)的平臺(tái),可輸出高可用算力并不斷突破計(jì)算效率瓶頸的利器。用戶可自動(dòng)完成AI計(jì)算并發(fā)布模型或發(fā)布推理服務(wù)。此外,平臺(tái)也為專業(yè)的AI開發(fā)用戶留有手動(dòng)深入調(diào)整計(jì)算過程的空間,包括工具和模型的選擇,算力配置的調(diào)整,對任務(wù)的定制化監(jiān)控等。
陳振寬表示,“聯(lián)想萬全異構(gòu)智算平臺(tái)”是AI 2.0時(shí)代聯(lián)想中國基礎(chǔ)設(shè)施戰(zhàn)略框架的核心。未來聯(lián)想將挑戰(zhàn)超過萬卡規(guī)模集群的通信算法優(yōu)化,挑戰(zhàn)秒級的斷點(diǎn)續(xù)訓(xùn),深入研究相變式液冷技術(shù),布局模塊化液冷數(shù)據(jù)中心,助力聯(lián)想AI算力朝著更強(qiáng)大、更穩(wěn)定、更高效和更綠色的方向?qū)崿F(xiàn)高質(zhì)量發(fā)展。