每年,全球市場上交付的數(shù)據(jù)中心服務器大約有3000萬臺,其中1/3用于運行軟件定義的數(shù)據(jù)中心堆棧,這類工作負載的增長速度遠快于摩爾定律,除非卸載并加速這類工作負載,否則數(shù)據(jù)中心用來運行應用程序的CPU算力會越來越少。當AWS提出所謂的“Datacenter Tax”時,數(shù)據(jù)中心普遍的焦慮被擺上臺面。
基于減法的加法
數(shù)據(jù)中心長期的迭代方向已經(jīng)隨著光網(wǎng)絡的鋪設、通信的密度、底層算力的生態(tài)設施建設等,不斷升級。隨著帶寬不斷提升,數(shù)據(jù)量和復雜性將呈指數(shù)級增長,包括網(wǎng)絡協(xié)議處理、存儲壓縮、數(shù)據(jù)加密等數(shù)據(jù)的處理也日趨復雜。受此影響,傳統(tǒng)數(shù)據(jù)中心服務器以CPU為處理中心的模式開始發(fā)生變化。
因為CPU成本高昂,資源寶貴,被這些應用耗費著實有點可惜。如何給CPU做減法?GPU和FPGA已經(jīng)在數(shù)據(jù)分析和加速上實現(xiàn)了減法,但還不足以滿足面向未來數(shù)據(jù)中心基礎架構層面的變革,即將計算移動到接近數(shù)據(jù)的位置,而非傳統(tǒng)的將數(shù)據(jù)移動到計算所在位置再做處理的方式,這是業(yè)界所公認的以數(shù)據(jù)為中心的體系結構下的創(chuàng)新。
于是,DPU應勢而生,用以專門卸載由虛擬化、網(wǎng)絡、存儲、安全和AI服務而產(chǎn)生的任務負載,以及未來的關鍵——數(shù)據(jù)的傳輸。在為CPU做減法同時,DPU給面向未來數(shù)據(jù)中心基礎架構層面的變革做了一個加法。
不同于服務器CPU,DPU專為網(wǎng)絡包處理而設計。雖然架構不同,但大多數(shù)都包含可編程數(shù)據(jù)平面,以及用于控制平面和應用代碼的CPU核。DPU專用數(shù)據(jù)路徑不僅比使用CPU核更高效,而且性能也遠高于后者。
例如,在網(wǎng)絡方面,DPU可以加速先進的數(shù)據(jù)中心SDN和網(wǎng)絡功能虛擬化(NFV),包括Open vSwitch、Overlay協(xié)議(如VXLAN)、網(wǎng)絡地址轉(zhuǎn)換(NAT)、負載均衡和精細化流量管理;在存儲方面,DPU可加速RoCE(RDMA Over Converged Ethernet)、NVMe-oF、靜態(tài)數(shù)據(jù)加密、數(shù)據(jù)去重、分布式糾錯和數(shù)據(jù)壓縮。
可以將DPU理解成一顆集成了從網(wǎng)絡端口到PCIe接口所有主要功能的可編程網(wǎng)絡系統(tǒng)級芯片,運行非應用型負載,從而可以讓服務器CPU資源更好地服務應用負載。對數(shù)據(jù)中心而言,這種分工,不僅可以實現(xiàn)效率的提升,而且也可以實現(xiàn)總體系統(tǒng)成本的降低。
顯然,DPU帶來了一個巨大的市場,包括資本在內(nèi)的各路玩家爭先恐后:思科的前高管創(chuàng)辦了DPU公司Pensando,獲得了HPE、Oracle和Lightspeed Venture Partners等公司的投資;2019年,軟銀愿景基金領投的2億美元給了推出基于MIPS架構DPU的Fungible;脫胎于中科院計算所計算機體系結構國家重點實驗室的中科馭數(shù),推出了其自研KPU專用處理器架構的DPU;芯啟源去年獲得和利資本與軟銀中國共同領投數(shù)億元融資,該公司產(chǎn)品是基于DPU的智能網(wǎng)卡;珠海星云智聯(lián)去年也完成數(shù)億元天使輪融資,由高瓴創(chuàng)投領投,鼎暉VGC(鼎暉創(chuàng)新與成長基金)、華登國際中國基金參與跟投。就在不久前,AMD也宣布收購Pensando,花費19億美元。
顯然,繼CPU、GPU之后,DPU已經(jīng)成為通往數(shù)據(jù)中心的第三條路。
NVIDIA的鼓點
DPU最早的概念,由Fungible提出。而真正完整定義DPU并實現(xiàn)大規(guī)模部署的是NVIDIA——該公司以創(chuàng)紀錄的69億美元收購Mellanox,眼下,全球大概有將近90%以上的高速網(wǎng)卡都是NVIDIA的網(wǎng)卡。
NVIDIA看中的正是Mellanox的BlueField DPU,不過,Mellanox最初的命名是IPU(I/O處理單元),主要處理在 I/O 路徑硬件中的數(shù)據(jù),通過更多的硬件安全功能,包括無代理微分段、高級惡意軟件檢測、深度包檢測和應用程序識別等,實現(xiàn)兼顧軟件定義解決方案的速度和靈活性,并且提高安全性、加速了性能并改善效率。
在完成收購后,NVIDIA開始加快BlueField DPU的迭代,傾注了更多的設計資源,集成Arm處理器核、VLIW矢量計算引擎和智能網(wǎng)卡的功能。BlueField-2 DPU內(nèi)部集成8個Arm核,NVIDIA稱其為AI-powered DPU,用于智能網(wǎng)卡和存儲控制器。而BlueField-2X卡上則加配了Ampere架構的GPU,集成了高達200Gbps的以太網(wǎng)或InfiniBand網(wǎng)絡端口和高帶寬的PCIe接口。
僅僅不到一年,BlueField-3 DPU橫空出世,號稱“一顆可抵300個x86核才能實現(xiàn)的服務”。作為業(yè)內(nèi)首款400Gbps以太網(wǎng)和NDR InfiniBand DPU,BlueField-3 DPU具有更好的網(wǎng)絡性能,內(nèi)置16個Arm A78 核,相比上一代產(chǎn)品,實現(xiàn)了10倍加速計算能力和4倍的加密速度。BlueField-3 DPU與16核256個線程的可編程數(shù)據(jù)路徑硬件加速器相結合,實現(xiàn)了線速處理,且無需訪問Arm控制器,實現(xiàn)了Arm核上的零負載數(shù)據(jù)路徑處理。這樣,在許多應用中,可由數(shù)據(jù)路徑自主處理已知的網(wǎng)絡流量,由Arm核處理新流量等例外情況及控制平面功能。
BlueField-3 DPU一方面加強了Smart NIC對于網(wǎng)絡協(xié)議和網(wǎng)絡安全的處理能力,另一方面整合并加強了分布式存儲的處理能力,從而讓DPU能在這些領域更多地替代CPU。BlueField-3X卡還增加一個75 TOPS 的加速器,在一個PCIe槽位上實現(xiàn)了DPU+GPU的集成解決方案,為那些在網(wǎng)絡安全、軟件定義網(wǎng)絡、云編排和其它應用中添加AI功能的應用,提供超強處理能力。
圖:BlueField-3號稱一顆可抵300個CPU核
按照NVIDIA的計劃,一年后,該公司將推出BlueField-4 DPU。BlueField-2 DPU和BlueField-3 DPU依靠其Arm核進行AI處理,而BlueField-4 DPU將集成一個用于AI加速的GPU——其AI性能與 NVIDIA的A100等頂尖加速器處于同一級別,網(wǎng)絡速率將暴增到800Gb/s,計算能力將再次提升10倍,具備云原生、解耦能力、微服務、AI、Zero-Trust安全等特性,以契合未來數(shù)據(jù)中心基礎設施的核心需求。
圖2:NVIDIA BlueField DPU 路線圖
解耦和耦合
盡管DPU的價值已經(jīng)成為共識,但它也面臨一個可以說是高處不勝寒的挑戰(zhàn):用戶要自己編寫底層代碼,這使得其早期應用僅限于一小群用戶。
相比CPU和GPU的單個引擎類型,DPU的處理引擎會有很多,如針對基礎設施層的虛擬化、網(wǎng)絡、存儲、安全等的處理引擎,以及各類開發(fā)庫、文件系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡訪問等的處理引擎。這些場景的軟硬件解耦難度大。CPU和GPU都實現(xiàn)了軟硬件解耦,軟件開發(fā)者和芯片開發(fā)者可以各自相對獨立的完成工作,但在DPU,要想實現(xiàn)軟硬件解耦非常困難。
當年,為了讓GPU實現(xiàn)軟硬件解耦,NVIDIA 推出了CUDA和GPGPU架構,而今,在DPU上這個問題也自然要得到解決。為了使ISV、服務提供商和學術界能夠采用BlueField DPU,NVIDIA 開發(fā)了DOCA(Data Center On A Chip Architecture,線上數(shù)據(jù)中心基礎設施體系結構)。
DOCA可以為BlueField DPU編程提供更高級別的抽象化,從而消除應用開發(fā)者采用BlueField DPU需要自定義底層代碼的障礙。從DOCA軟件開發(fā)套件來看,它主要是創(chuàng)建和構建應用程序所需的所有組件,包括驅(qū)動程序、抽象的API庫、各種開發(fā)工具、參考源代碼、示例程序和開發(fā)所需相關的文檔。
DOCA框架能夠給開發(fā)者提供一個一致的開發(fā)體驗,既可以統(tǒng)一訪問BlueField DPU上各種硬件資源,從而簡化網(wǎng)絡、存儲、安全和基礎設施管理服務相關的開發(fā),開發(fā)者也無需擔心開發(fā)環(huán)境構建和部署復雜程度,基本上DOCA是個即插即用的方式,可以讓開發(fā)者很容易地來使用這個軟件棧。
通過提供運行二進制文件和上層API,DOCA框架使開發(fā)者能夠?qū)W⒂趹么a開發(fā),而無需了解DPU硬件的復雜之處。此外,盡管Arm處理器已進入云服務器,但許多應用開發(fā)者都有一個龐大的x86代碼庫,且尚未為Arm移植做好準備。NVIDIA的DOCA Runtime適用于x86,可以消除Arm 移植的障礙,使其可以立刻采用BlueField DPU,并在以后進行優(yōu)化。?
最早的DOCA 1.0是在2020年GTC秋季大會上,與BlueField-2 DPU一同發(fā)布的,后面持續(xù)演進到DOCA 1.1版本,更加完善了整個DOCA軟件棧,提供了DOCA SDK、運行時和相關的服務。到了DOCA1.2版本,則加強了在零信任分布式安全解決方案上的支持。
今年5月份,NVIDIA發(fā)布了DOCA 1.3,它提供了121個新的API開發(fā)接口,也提供了一些全新和增強的功能,包括優(yōu)化數(shù)據(jù)流插入的DOCA Flow庫、通信通道庫、正則表達式庫、App Shield的SDK、基于OVN的IPSec加密的完全卸載,以及新增的一些DOCA服務,比如HBN——基于主機的網(wǎng)絡,使網(wǎng)絡架構師能夠基于三層協(xié)議設計網(wǎng)絡,在BlueField DPU上實現(xiàn)了三層的路由功能。HBN還可以分析和加密進出節(jié)點的流量。
HBN為裸金屬云實現(xiàn)了無控制器的分布式路由,在BlueField DPU上實現(xiàn)高級的TOR交換機功能、高可用的等價多路徑路由(ECMP)和端到端增值功能NVUE/NetQ/Telemetry。同時,BlueField DPU與基于Cumulus的Spectrum交換機可以提供統(tǒng)一的數(shù)據(jù)中心EVPN網(wǎng)絡架構,可提供一站式網(wǎng)絡編排服務,也可使用NVUE和NetQ實現(xiàn)統(tǒng)一管理平臺,并通過端到端遙測來減少網(wǎng)絡不可用時間——這種方式會徹底改變開發(fā)者構建和思考整個數(shù)據(jù)中心網(wǎng)絡構建的方式。
圖:DOCA 1.3的資源
用軟件解鎖BlueField DPU,DOCA實現(xiàn)了BLueField DPU軟硬件的解耦,簡化了BlueField DPU的應用,解鎖數(shù)據(jù)中心里基于BlueField DPU的創(chuàng)新功能,就這個意義而言,DOCA實現(xiàn)了開發(fā)者和BlueField DPU的耦合。
當下即未來
構建以數(shù)據(jù)為中心的系統(tǒng)已經(jīng)是大勢所趨。
GPU用于加速計算,CPU用于通用計算。DPU用于處理網(wǎng)絡數(shù)據(jù)任務,基于Arm架構的CPU,則負責釋放二者的能力。當NVIDIA將CPU、GPU和DPU作為數(shù)據(jù)中心三大算力支柱進行部署時,其總體策略也浮出水面——在強調(diào)云端高端算力的同時,向數(shù)據(jù)中心通信傳輸和數(shù)據(jù)處理領域加速滲透,形成“計算+傳輸”雙管齊下的業(yè)務閉環(huán),將數(shù)據(jù)中心整體作為一個系統(tǒng)來打造,實現(xiàn)分布式計算的可能性,并提供一個全棧式的計算平臺。
今年GTC2022上發(fā)布的第四代NVIDIA DGX?系統(tǒng)是一個最好的例證。這一全球首個基于全新NVIDIA H100 Tensor Core GPU的AI平臺,除了8塊H100 GPU以及總計6400億個晶體管之外,每個DGX H100系統(tǒng)還包含兩個NVIDIA BlueField-3 DPU,專門負責卸載、加速和隔離高級網(wǎng)絡、存儲及安全服務。
在BlueField DPU以及DOCA發(fā)布之后兩三年的時間里,在全球5G孿生的安全、云基礎設施及容器部署、邊緣服務器平臺的擴展、云原生高性能存儲以及基于操作系統(tǒng)層面的加速來支持高性能的元宇宙的應用中,都能看見BlueField DPU的身影。而目前,中國的DOCA開發(fā)者也已占據(jù)全球一半以上,他們正在應用BlueField DPU開發(fā)相應的金屬云加速網(wǎng)絡平臺,高性能分布式存儲,數(shù)字孿生基礎設施,以及超級計算的網(wǎng)絡平臺。
在通往數(shù)據(jù)中心的第三條路上,NVIDIA走到哪兒了?也許,當下即未來。