隨著數(shù)據(jù)量激增和應(yīng)用場景走向多樣化,算力需求不斷攀升,算力瓶頸成為業(yè)界關(guān)注的焦點問題。
如果將數(shù)據(jù)中心中的每一臺服務(wù)器比喻為一座“城市”,在每個城市“人口”不斷膨脹,城市間交互需求爆炸式增長的背景下,以CPU為網(wǎng)絡(luò)核心的數(shù)據(jù)處理方式,面臨的挑戰(zhàn)越來越大。DPU因此而名聲大噪,對比傳統(tǒng)網(wǎng)卡,它相當于幫助數(shù)據(jù)中心完成了從“鄉(xiāng)間公路”到“高速鐵路”的轉(zhuǎn)變。DPU所提供的高吞吐、低時延、基礎(chǔ)設(shè)施卸載能力,能夠幫助數(shù)據(jù)中心規(guī)避“信息孤島”問題,被認為是數(shù)據(jù)中心繼CPU、GPU之后的第三顆芯片,成為未來算力底座中的重要支柱之一。
DPU的發(fā)展?jié)摿?,讓國?nèi)創(chuàng)業(yè)者們看到了新的方向和希望。短短幾年,至少十幾家創(chuàng)業(yè)公司已經(jīng)站上了這個賽道。不過,大芯片創(chuàng)業(yè)并非易事,產(chǎn)品從雛形到流片,再到落地、以及在客戶項目中批量應(yīng)用,要經(jīng)過技術(shù)與時間的雙重考驗,并且,所面向的都是被國外科技巨頭(比如英特爾、英偉達、AMD、Marvell等)長期占據(jù)主導(dǎo)優(yōu)勢的應(yīng)用領(lǐng)域??梢哉f,每一關(guān),都是生死線。
那么,經(jīng)歷了幾年“花團錦簇”的發(fā)展熱潮,DPU創(chuàng)業(yè)究竟怎么樣了?是“亂花漸入迷人眼”,還是目標日益清晰?能否經(jīng)得起實際場景的拷問?日前,中科馭數(shù)在以“DPU構(gòu)建高性能云算力底座”為主題的線上技術(shù)開放日上,用實際的產(chǎn)品和解決方案交上了一份階段性答卷。
三大場景、五大方案,國產(chǎn)DPU交短期答卷
中科馭數(shù)作為國內(nèi)專注于DPU研發(fā)設(shè)計的公司,基于自研KPU架構(gòu)已經(jīng)進行了三代DPU芯片研發(fā)。在當天的技術(shù)開放日上,中科馭數(shù)集中展現(xiàn)了在低時延網(wǎng)絡(luò)、云原生網(wǎng)絡(luò)及智算中心網(wǎng)絡(luò)三大關(guān)鍵場景下的技術(shù)成果,并深入介紹了五大核心DPU解決方案:高性能云原生底座方案、基于DPU的極速服務(wù)網(wǎng)格方案、高性能國產(chǎn)密碼卸載方案、RDMA加速并行文件系統(tǒng)解決方案、以及證券期貨交易信創(chuàng)低時延網(wǎng)絡(luò)解決方案等。
“DPU是解決數(shù)據(jù)中心計算效率低、資源利用率低、安全性低‘三低’問題的關(guān)鍵技術(shù)”,中科馭數(shù)創(chuàng)始人、CEO鄢貴海表示,“我們正不遺余力地參與并積極推動算力基礎(chǔ)設(shè)施的發(fā)展,DPU技術(shù)開放日既是對DPU技術(shù)應(yīng)用的典型方案展示,也是DPU技術(shù)在重要細分場景走向成熟的標志?!?/p>
場景一:金融信創(chuàng)需求大爆發(fā),低時延網(wǎng)絡(luò)DPU實現(xiàn)自主可控
金融信創(chuàng)正在向核心系統(tǒng)深入,對網(wǎng)絡(luò)時延的要求日益嚴格,已提升至微秒或納秒級別。長久以來,低時延網(wǎng)絡(luò)設(shè)備市場被國外廠商如Solarflare和Mellanox所主導(dǎo),且傳統(tǒng)的軟件加速方案已達到瓶頸,而中科馭數(shù)通過自主研發(fā)的低時延網(wǎng)絡(luò)DPU卡,成功構(gòu)建了超低時延網(wǎng)絡(luò),實現(xiàn)了金融交易核心鏈路的自主可控和性能優(yōu)化。
中科馭數(shù)的DPU產(chǎn)品已在金融證券行業(yè)內(nèi)實現(xiàn)廣泛部署,助力超過30家金融機構(gòu)完成核心系統(tǒng)的升級替換,確保了金融系統(tǒng)的穩(wěn)定運行。某頭部證券機構(gòu)通過部署中科馭數(shù)的DPU卡,有效解決了交易系統(tǒng)的低時延問題,滿足了高頻交易對時延的嚴格要求。
申萬宏源聯(lián)合中科馭數(shù)及其他軟硬件廠商成立的低時延實驗室,對全信創(chuàng)方案進行了權(quán)威測試,驗證了其在基礎(chǔ)設(shè)施和業(yè)務(wù)系統(tǒng)方面的技術(shù)性能,測試結(jié)果表明全信創(chuàng)環(huán)境下的性能提升顯著。
隨著信創(chuàng)云成為證券機構(gòu)上云的重要選擇,東方證券也與中科馭數(shù)合作,引入低時延技術(shù),致力于打造一云多芯、超低時延的信創(chuàng)云平臺,實現(xiàn)資源的統(tǒng)一調(diào)度和上層應(yīng)用的廣泛兼容,推動信創(chuàng)產(chǎn)業(yè)的發(fā)展。
此外,銀行業(yè)也正面臨著移動互聯(lián)網(wǎng)和金融科技創(chuàng)新帶來的業(yè)務(wù)請求和數(shù)據(jù)處理量的激增,以及業(yè)務(wù)種類的爆發(fā)式增長,這對IT基礎(chǔ)設(shè)施、特別是云化設(shè)施提出了更高的要求。中科馭數(shù)的DPU解決方案可以匹配各類高性能網(wǎng)絡(luò)、存儲底座,以及虛擬機、容器與裸金屬服務(wù)器的共池管理、VPC網(wǎng)絡(luò)等需求,幫助銀行數(shù)據(jù)中心高效、安全、平穩(wěn)地過渡到云原生業(yè)務(wù)架構(gòu)。
場景二:通用智算中心,DPU支持海量數(shù)據(jù)交互
隨著AI大模型的爆炸式發(fā)展,高性能計算從傳統(tǒng)的工程科學(xué)應(yīng)用計算逐漸向大數(shù)據(jù)計算、機器學(xué)習(xí)和AI運算等新興數(shù)據(jù)密集型計算發(fā)展。這種趨勢不僅對算力提出了新要求,也對異構(gòu)算力并行計算的數(shù)據(jù)同步效率提出了要求,更高的數(shù)據(jù)吞吐、更低的時延和更高效的存儲I/O能力,是有效提升算力的基礎(chǔ)。
在智算、超算領(lǐng)域,并行文件系統(tǒng)是一種常見且重要的分布式文件存儲系統(tǒng)。中科馭數(shù)推出的RDMA加速并行文件系統(tǒng)解決方案,采用RDMA網(wǎng)絡(luò)DPU卡代替?zhèn)鹘y(tǒng)網(wǎng)卡,將RDMA網(wǎng)絡(luò)應(yīng)用與并行文件系統(tǒng),突破了傳統(tǒng)的存算速度瓶頸,解鎖了存算之間的高速通道,以更少的計算資源提供更強的網(wǎng)絡(luò)傳輸能力。
基于RDMA協(xié)議零拷貝、內(nèi)核旁路的特性,該解決方案大幅降低了并行文件系統(tǒng)在數(shù)據(jù)讀寫,數(shù)據(jù)傳輸的時延,提高帶寬利用率,進而提升并行文件系統(tǒng)整體性能。同時利用DPU卡上的VirtIO-FS技術(shù),將業(yè)務(wù)側(cè)host的虛擬化功能卸載至DPU,能夠減少host端CPU的算力損耗。
場景三:向云原生進發(fā),DPU解決多項行業(yè)痛點
隨著云計算的普及和深入發(fā)展,云原生技術(shù)日益出現(xiàn)在各個行業(yè)的應(yīng)用中,成為了IT領(lǐng)域備受矚目的焦點。云原生技術(shù)趨勢不僅指明了云計算和應(yīng)用程序開發(fā)的未來方向,更是推動IT發(fā)展的重要力量。
不過,云原生技術(shù)雖然為企業(yè)IT帶來了前所未有的靈活性和便捷性,但同時也增加了資源消耗并且影響到業(yè)務(wù)性能。此外,許多企業(yè)的業(yè)務(wù)系統(tǒng)仍然運行在物理機和虛擬機上,如何實現(xiàn)異構(gòu)資源的共池調(diào)度與管理也是一大挑戰(zhàn)。
針對云原生業(yè)務(wù)的復(fù)雜性和高時效性需求,中科馭數(shù)的云原生解決方案,采用了以 DPU 為核心的軟硬件一體化架構(gòu),可以提供統(tǒng)一管理、高度可擴展、高性能、安全的 IaaS、PaaS 層云服務(wù)。硬件層支持“一云多芯”和“3U一體”的異構(gòu)算力架構(gòu),可以同時滿足通用場景和信創(chuàng)業(yè)務(wù)需求。自研DPU卡作為該方案的核心,支持網(wǎng)絡(luò)、存儲、安全、管理等負載的卸載,可以充分釋放服務(wù)器的硬件資源。該方案能夠?qū)W(wǎng)絡(luò)和存儲的性能運行加速,提升業(yè)務(wù)效率,同時實現(xiàn)全域零信任安全方案,降低業(yè)務(wù)風(fēng)險。另外,中科馭數(shù)還自研了云原生異構(gòu)管理平臺,并基于Kubernetes 的插件機制開發(fā)了大量擴展,實現(xiàn)容器、虛擬機、裸金屬異構(gòu)資源的統(tǒng)一調(diào)度和運維管理,可大幅提升運維管理效率。
三U一體——未來算力底座的核心
中科馭數(shù)高級副總裁張宇回顧了算力底座自2000年以來的發(fā)展變遷。從最初以“服務(wù)器”為中心的本地部署階段,到2010年左右進入以“虛擬機”為中心的云計算階段,再到2020年,行業(yè)進入云原生化階段。這時行業(yè)已經(jīng)基本形成了統(tǒng)一的云原生基礎(chǔ)設(shè)施,且硬件資源完全池化、“云原生應(yīng)用”成為了中心。在這個部署階段,需要統(tǒng)一基礎(chǔ)設(shè)施管理、對業(yè)務(wù)系統(tǒng)進行更好的部署、并且需要按需調(diào)度集群資源。
“在此背景下,云計算對異構(gòu)算力需求越來越高。DPU作為圍繞I/O核心的算力,對IaaS、PaaS等云服務(wù)層起到關(guān)鍵作用,其中,IaaS層包括計算、網(wǎng)絡(luò)、存儲和安全資源,PaaS層則圍繞云原生和AI相關(guān)優(yōu)化平臺處理加速。隨著云計算算力和帶寬的提升,以及對安全要求的增加,DPU的應(yīng)用場景和使用頻率不斷增長,早已從概念走向?qū)嶋H應(yīng)用,被國內(nèi)外頂級云服務(wù)商廣泛采用”,張宇指出。
特別是在智能計算方面,除了整個云底座的支持外,張宇認為還要關(guān)注大模型訓(xùn)練和推理的主流基礎(chǔ)設(shè)施架構(gòu)。因為人工智能的發(fā)展不僅依賴GPU,還涉及大數(shù)據(jù)的收集、處理和轉(zhuǎn)化為模型因子全過程中對算力集群的強需求。
這一流程包括模型的訓(xùn)練和部署,服務(wù)于各行各業(yè),涉及計算系統(tǒng)的各個方面。而人工智能快速迭代的關(guān)鍵,就在于通用云網(wǎng)絡(luò)和高性能網(wǎng)絡(luò),這些網(wǎng)絡(luò)支持大量數(shù)據(jù)交互,需要確保訓(xùn)練時的低時延和大帶寬需求,以及推理時的高吞吐量,同時要降低算力成本。
因此從基礎(chǔ)設(shè)施的角度,需要CPU、GPU、DPU“三U一體”架構(gòu)的核心支持,對大數(shù)據(jù)、數(shù)據(jù)庫和大數(shù)據(jù)集群的處理提供支持。此外,容器化、云原生以及存儲技術(shù)等,都對算力基礎(chǔ)設(shè)施提出了更高要求。
“DPU在構(gòu)建高性能存儲、高速網(wǎng)絡(luò)和分布式文件系統(tǒng)等場景中發(fā)揮著核心作用,隨著智能計算的快速發(fā)展,各大云服務(wù)提供商正迅速推進相關(guān)技術(shù)”,張宇表示,“中科馭數(shù)的目標是與國際水平接軌,不僅在時延上達到業(yè)界領(lǐng)先水平,還將在帶寬和算力成本上尋求超越。”
除了智算領(lǐng)域,DPU在低時延網(wǎng)絡(luò)、高性能計算、以及邊緣計算等場景中的應(yīng)用正在全面展開。而隨著5G的推廣,低時延應(yīng)用場景將得到進一步拓展,這也是DPU落地的關(guān)鍵領(lǐng)域,包括金融、工業(yè)互聯(lián)網(wǎng)等領(lǐng)域。
DPU產(chǎn)業(yè)有望迎來飛躍
放眼英特爾、英偉達、AMD等業(yè)界巨頭,已經(jīng)形成了完整的 “三U一體”算力平臺。而在我國當前產(chǎn)業(yè)環(huán)境下,獨立發(fā)展的DPU企業(yè)該如何面對競爭,并制定長遠的發(fā)展策略?
張宇認為,國內(nèi)的DPU企業(yè)需要更具市場適應(yīng)性。長遠來看,國內(nèi)DPU和CPU企業(yè)需要在不同架構(gòu)體系下與GPU和AI芯片協(xié)同發(fā)展,甚至可能需要與國際廠商如英偉達GPU等實現(xiàn)兼容。預(yù)計未來五年左右,這種多元化的合作模式不會有大的變化。
針對具體應(yīng)用方向,低時延場景向云端遷移是近兩年值得期待的大趨勢。張宇透露,中科馭數(shù)相關(guān)的技術(shù)布局已在標桿客戶落地,除了金融行業(yè),低時延應(yīng)用正在向工業(yè)、智能交通等領(lǐng)域擴展。除了裸金屬級別的部署,云環(huán)境中對低時延性能的要求也在增加,中科馭數(shù)目前正在與云服務(wù)商進行深度適配、兼容性測試和性能調(diào)優(yōu)等工作。
根據(jù)2023年《中國數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展白皮書》,預(yù)計至 2025 年“十四五”規(guī)劃期末,擬實現(xiàn)數(shù)據(jù)中心機架規(guī)模增長至1400萬架,規(guī)??偭糠瓋杀?,總增量投資約7000億元。按服務(wù)器規(guī)模預(yù)計,未來幾年云與數(shù)據(jù)中心領(lǐng)域每年國內(nèi)服務(wù)器出貨量將維持在500萬臺左右,其中DPU滲透率在10%左右,單臺服務(wù)器可以配置一塊到多塊DPU板卡,預(yù)計每年DPU需求量將在100萬片左右。
結(jié)合上述需求和趨勢,張宇認為,“隨著國家對算力投入的增加,以及智能計算對產(chǎn)業(yè)的大力驅(qū)動,DPU發(fā)展前景令人期待,這預(yù)示著行業(yè)將迎來質(zhì)的飛躍?!?/p>