隨著NVIDIA Blackwell新平臺預(yù)計于2024年第四季出貨,將推動液冷散熱方案的滲透率明顯增長,從2024年的10%左右至2025年將突破20%。隨著全球ESG(環(huán)境、社會和公司治理)意識提升,加上CSP(云端服務(wù)業(yè)者)加速建設(shè)AI服務(wù)器,預(yù)期有助于帶動散熱方案從氣冷轉(zhuǎn)向液冷形式。
觀察全球AI服務(wù)器市場,2024年主要AI方案供應(yīng)商仍是NVIDIA(英偉達(dá))。若在GPU AI服務(wù)器市場而言,NVIDIA則占據(jù)強(qiáng)大的優(yōu)勢,市占率接近90%,排名第二的AMD僅約8%。
TrendForce集邦咨詢觀察,今年NVIDIA Blackwell出貨量規(guī)模較小,主要是因為供應(yīng)鏈仍在進(jìn)行產(chǎn)品最終測試驗證等流程,如高速傳輸和散熱設(shè)計等方面需要持續(xù)優(yōu)化。新平臺因能耗較高,尤其GB200整柜式方案需要更好的散熱效率,有望促進(jìn)液冷方案滲透率。然而,現(xiàn)有服務(wù)器生態(tài)系采用液冷的比例尚低,對于漏液或散熱效能不佳的問題,ODM(原始設(shè)計制造商)仍須歷經(jīng)學(xué)習(xí)曲線后得出最佳解決方式。TrendForce集邦咨詢預(yù)估2025年Blackwell平臺在高端GPU的占比有望超過80%,這將促使電源供應(yīng)廠商和散熱行業(yè)等將競相投入AI液冷市場,形成新的產(chǎn)業(yè)競爭格局。
大型CSP加快布建AI服務(wù)器,Google積極布局液冷方案
近年來,Google、AWS和Microsoft等大型美系云端業(yè)者皆加快布建AI服務(wù)器,主要采用搭載NVIDIA GPU及自研ASIC的方式。據(jù)TrendForce集邦咨詢了解,NVIDIA GB200 NVL72機(jī)柜之熱設(shè)計功耗(TDP)高達(dá)約140kW,需要采用液冷方案才能解決散熱問題,預(yù)計將以水對氣(Liquid-to-Air, L2A)方式為主流。HGX和MGX等其他架構(gòu)的Blackwell服務(wù)器因密度較低,氣冷散熱為主要方案。
在云端業(yè)者自研AI ASIC方面,Google的TPU除了使用氣冷方案,還積極布局液冷散熱,是最積極采用液冷方案的美系廠商,BOYD和Cooler Master是其冷水板(Cold Plate)的主要供應(yīng)商。中國大陸方面,Alibaba(阿里巴巴)最積極擴(kuò)建液冷數(shù)據(jù)中心,其他云端服務(wù)商對自研的AI ASIC主要仍采用氣冷散熱方案。
TrendForce集邦咨詢指出,云端服務(wù)商將指定GB200機(jī)柜液冷散熱方案的關(guān)鍵零部件供應(yīng)商,目前冷水板(Cold Plate)主要供應(yīng)商為奇鋐和Cooler Master,分歧管(Manifold)為Cooler Master和雙鴻,冷卻分配系統(tǒng)(Coolant Distribution Unit, CDU)為Vertiv和臺達(dá)電。至于防止漏水的關(guān)鍵零件快接頭(Quick Disconnect, QD),目前采購仍以CPC、Parker Hannifin、Denfoss和Staubli等廠商為主,其他供應(yīng)商如嘉澤和富世達(dá)等已進(jìn)入驗證階段,預(yù)期2025年上半年,上述廠商有機(jī)會加入快接頭供應(yīng)商的行列,有助于逐步緩解當(dāng)前供不應(yīng)求的局面。