加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 算力催生數(shù)據(jù)中心規(guī)模擴張,高效變革在即
    • AI服務器液冷滲透率將更快、更高
    • 液冷大規(guī)模部署面臨重重挑戰(zhàn)
    • 2025年,液冷滲透率有望超過20%
    • 寫在最后
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

地主家“算力”也不夠了,怎么才能“可持續(xù)”?

2023/04/07
3021
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

近日,ChatGPT官網(wǎng)一度停止Plus付費項目的購買,原因是“需求量過大”。業(yè)內(nèi)推測這是由于ChatGPT背后的算力資源出現(xiàn)明顯缺口,導致OpenAI不得不暫時踩下用戶增長的“剎車”。盡管截止本文發(fā)稿時這一服務項目已恢復,但算力告急確是現(xiàn)實情況。

算力催生數(shù)據(jù)中心規(guī)模擴張,高效變革在即

類ChatGPT大模型迅速引爆各類AI應用需求的同時,也對算力提出巨大需求,同時帶來了嚴峻的能源問題,如何實現(xiàn)可持續(xù)的算力增長成為未來發(fā)展的關鍵。

以ChatGPT為例,業(yè)內(nèi)對其電量需求進行過相關測算。根據(jù)OpenAI公開信息披露,ChatGPT訓練階段總算力消耗約為3640PF-days(即以1PetaFLOP/s的效率運行3640天),對應數(shù)據(jù)中心裝機功率需求2.68萬千瓦。據(jù)Similarweb數(shù)據(jù),截至今年1月,ChatGPT日活約1300萬人,每人平均1000字左右的問題,對應運行階段每日算力消耗約為3000PF-days,對應數(shù)據(jù)中心裝機功率需求66.3萬千瓦,對應全年用電量需求約 22 億千瓦時。

隨著模型迭代、參數(shù)量的擴大,以及日活人數(shù)的擴大,相關算力需求將成倍增加,也將進一步推升數(shù)據(jù)中心的規(guī)模擴張趨勢。

從我國數(shù)據(jù)中心的發(fā)展和建設方向來看,工業(yè)和信息化部、發(fā)展改革委等七部門聯(lián)合發(fā)布《信息通信行業(yè)綠色低碳發(fā)展行動計劃 (2022-2025 年)》(以下簡稱《行動計劃》),2025 年,全國新建大型、超大型數(shù)據(jù)中心電能利用效率(PUE)降到 1.3 以下,改建核心機房PUE降到1.5以下。

另外,根據(jù)“東數(shù)西算”工程要求,內(nèi)蒙古、貴州、甘肅、寧夏四處集群樞紐設立的數(shù)據(jù)中心集群PUE應控制在1.2以內(nèi);京津冀、長三角、粵港澳大灣區(qū)、成渝四處集群樞紐設立的數(shù)據(jù)中心集群PUE則要控制在1.25以下。

除了政策層面的嚴苛要求,技術層面的變革也迫在眉睫:

當前,芯片功耗與服務器功耗逐步上升,特別是人工智能需求的通用 GPU 功耗急劇增加,使得單機柜功率密度正不斷增大。根據(jù)《2021-2022 年度中國數(shù)據(jù)中心基礎設施產(chǎn)品市場總報告》,2021 年我國單機柜功率在10kW以上的數(shù)據(jù)中心市場規(guī)模增速超過10%,其中 30kW以上增速達31%。

如果采用風冷散熱方式,通常要把單機柜功率控制在12kW以內(nèi),以確保散熱系統(tǒng)能夠為IT設備提供合適的工作溫度。但是,隨著服務器單位功耗不斷增大,單機柜功率15kW基本成為空氣對流散熱能力的天花板,一旦超越這一數(shù)值,處于高溫狀態(tài)工作的 IT 設備將出現(xiàn)運行不穩(wěn)、加劇老化甚至頻繁宕機等后果。

在政策與技術的雙重驅動下,高效低碳的液冷技術不僅是散熱方式的改變,更有可能變革整個數(shù)據(jù)中心生態(tài)。

AI服務器液冷滲透率將更快、更高

什么是PUE?PUE(Power Usage Effectiveness)是用于測量數(shù)據(jù)中心能源效率的指標,是用數(shù)據(jù)中心總能耗除以IT設備能耗得來。總能耗包含IT設備能耗和制冷、配電等系統(tǒng)能耗,PUE數(shù)值越靠近1說明非IT設備的能耗越少,能效水平越高。

當前,在PUE目標不斷降低,且CPU功耗逐年上升的背景下,業(yè)內(nèi)正在大力推行采用液冷方案來降低服務器整機功耗和數(shù)據(jù)中心PUE。

所謂液冷,通俗來講就是通過液體代替空氣,把CPU、內(nèi)存等IT發(fā)熱器件產(chǎn)生的熱量帶走,就好似給服務器局部冷卻、整體“淋浴”甚至全部浸沒。 就液冷技術分類而言,根據(jù)液體冷媒和發(fā)熱源的接觸方式可分為——冷板式(間接接觸)、噴淋式(直接接觸)、浸沒式(直接接觸)。相較于風冷,液冷的優(yōu)勢主要體現(xiàn)在以下方面:

第一,可以帶走更多熱量。相較于空氣,水的比熱容高達4.2x10的三次方焦/千克·攝氏度,導熱效率十分高,因此無論是冷板式還是浸沒式的液冷,都能帶走更多的熱量。

第二,噪音品質更好。作為生產(chǎn)噪音的“專業(yè)戶”,數(shù)據(jù)中心機房的噪音往往成為擾民的存在,在同等條件下,液冷的噪音要比風冷小很多。

第三,耗電節(jié)能更省。冷卻效率提高的同時,整體循環(huán)效率也在變高,這樣產(chǎn)品級的電消耗,實際上節(jié)約了整個空調系統(tǒng)和循環(huán)系統(tǒng)的電耗。

第四,物理占用空間小。受限于風冷散熱系統(tǒng)的限制,迎風面積總是有限的,如果想要實現(xiàn)更高的密度,就需要在單位體積內(nèi)實現(xiàn)更高的冷卻容量,這也是液冷才可以實現(xiàn)的。

寧暢首席技術官趙雷認為,風冷技術的極限值基本是在300W-350W之間,目前數(shù)據(jù)中心已經(jīng)慢慢觸碰到這個極限值,而隨著CPU功耗的增長,推進液冷技術發(fā)展已經(jīng)成為行業(yè)發(fā)展的重要推動力。

新華三服務器產(chǎn)品線系統(tǒng)部總監(jiān)鄭國良表示,“東數(shù)西算”項目正式落地后,對數(shù)據(jù)中心PUE的要求非常明確,數(shù)據(jù)中心對于液冷技術需求的迫切性都提到比較高的位置。因此對于當前和下一代平臺,包括浸沒式液冷都會加大投入和加快發(fā)布的進度。

針對當前火爆的AI服務器市場,浪潮信息服務器產(chǎn)品線總經(jīng)理趙帥表示,“短期內(nèi),AIGC對數(shù)據(jù)中心訓練需求是爆炸式的增長。長遠來看,推理市場也會是爆炸性的增長”。

相比于通用服務器,AI服務器功耗更高,單臺服務器約10千瓦?!艾F(xiàn)在10千瓦的服務器是6U高,單U要解決1.5千瓦到2千瓦的散熱量,如果單純用風冷技術,需要把服務器做成10U高,幾乎不可能實現(xiàn)”, 趙帥認為,“液冷技術在AI服務器的滲透率會更快、更高?!?/p>

液冷大規(guī)模部署面臨重重挑戰(zhàn)

盡管推動數(shù)據(jù)中心向液冷發(fā)展已經(jīng)成為行業(yè)共識,但是,液冷技術從小規(guī)模驗證走向大規(guī)模量產(chǎn)仍面臨挑戰(zhàn):一是缺乏技術行業(yè)標準、規(guī)范等指引,產(chǎn)業(yè)協(xié)同度不高,難以標準化適配和部署;二是由于缺乏長周期、大規(guī)模部署驗證,液冷數(shù)據(jù)中心的可靠性問題存在一定爭議,用戶有使用疑慮;三是產(chǎn)業(yè)鏈協(xié)同性差,缺乏具備高度整合能力的企業(yè),資源配置效率低、浪費大,產(chǎn)業(yè)發(fā)展速度受阻。

針對上述挑戰(zhàn),業(yè)界頭部企業(yè)已經(jīng)開始了技術創(chuàng)新,并通過產(chǎn)業(yè)合作推動相關產(chǎn)品標準、驗證標準的建立。

例如針對漏液等安全方面的顧慮,浪潮信息首創(chuàng)了液環(huán)式真空 CDU,可實現(xiàn)僅依靠真空泵通過不同傳感器控制幾個腔室的功能切換即可實現(xiàn)流體的循環(huán)流動,水泵則僅起到輔助提高系統(tǒng)壓差作用。這項技術創(chuàng)新,突破了業(yè)界目前負壓液冷循環(huán)系統(tǒng)必須同時依靠真空泵和水泵,才能實現(xiàn)液體循環(huán)流動的“定律”,在降低技術成本的同時,也實現(xiàn)了技術極簡化,進一步推動冷板式液冷技術的普及。

針對用戶對液冷產(chǎn)品規(guī)?;渴鸬囊蓱],浪潮信息與京東云聯(lián)合發(fā)布了天樞(ORS3000S)液 冷整機柜服務器,它支持冷板式液冷,散熱效率提升50%;滿足多節(jié)點供電需求的同時,通過電源均衡優(yōu)化技術,可以使電源一直工作在最高效率,相比于分布式電源模式,整體效率提升10%;支持一體化交付,高效運維部署,交付速度提高5-10倍。

阿里云約從2016年開始大規(guī)模部署液冷技術。英特爾與阿里巴巴圍繞浸入式液冷所面臨的材料兼容性、電氣信號完整性、芯片散熱特性、服務器系統(tǒng)散熱特性、服務器及機柜結構設計等課題,展開了深入合作,從處理器定制和服務器系統(tǒng)開發(fā)與優(yōu)化著手,突破芯片功耗墻功耗和冷卻兩大影響算力提升的關鍵問題,使得液冷服務器在阿里巴巴數(shù)據(jù)中心成功大規(guī)模部署,在2018年建成首個互聯(lián)網(wǎng)液冷數(shù)據(jù)中心,在2020年投產(chǎn)首個5A級綠色液冷數(shù)據(jù)中心,每年可以節(jié)省電能至少達千萬級的同時,使得服務器系統(tǒng)的故障率相比風冷服務器下降約53%,有效降低了數(shù)據(jù)中心總體擁有成本。

寧暢也在與英特爾的合作中,進一步改善了冷板式液冷設計中的漏液檢測、材料兼容性、生產(chǎn)工藝等核心技術要點,并在浸沒式液冷中的安裝運維、液體揮發(fā)與滲漏、材料兼容性等難點問題上實現(xiàn)了突破。

不過,在數(shù)據(jù)中心服務器實施液冷技術畢竟是系統(tǒng)級工程,需要由點到面、循序漸進地推進。僅以高速I/O連接器為例,當整個傳輸鏈路置于液冷材料環(huán)境時,由于其周圍介電常數(shù)的變化,傳輸鏈路對應的高頻參數(shù), 譬如阻抗、插損等會受到影響并在一定程度上變差,因此還需要專門在冷卻液環(huán)境中進行信號完整性測試,便于校準由于環(huán)境引入的偏差,使系統(tǒng)信號裕量符合預期。

2025年,液冷滲透率有望超過20%

國內(nèi)液冷產(chǎn)業(yè)總體發(fā)展現(xiàn)狀如何?趙帥表示,液冷技術本身,及其加工、焊接、產(chǎn)品工藝等已比較成熟?,F(xiàn)在迫在眉睫的是打通產(chǎn)業(yè)鏈的工作,形成可批量化、可復制化、可規(guī)?;男?。

浪潮信息數(shù)據(jù)中心產(chǎn)品部副總經(jīng)理李金波表示,推進液冷產(chǎn)業(yè)化的關鍵是建立標準,對于液冷部件來說,主要是兩類:一類是設計標準,要讓所有研究團隊通過公認的標準,慢慢形成標準的技術體系;一類是測試標準,要把原來的設計準則在測試環(huán)節(jié)中一一地實現(xiàn)、被行業(yè)所認可,這時整體的標準、規(guī)范才能打通。

“中國的液冷發(fā)展會是逐步迭代的過程,到2022、2023年液冷滲透率可能只在5%左右,但是到2025年,我們認為會超過20%”,趙帥表示。

總體而言,我國液冷當前的滲透率還較低。從整體現(xiàn)狀來看,主要是一些創(chuàng)新型的數(shù)據(jù)中心在積極應用,東部地區(qū)數(shù)據(jù)中心整體PUE要求較高,液冷使用相對多。此外,不同行業(yè)客戶對于液冷產(chǎn)品與方案具有多樣化需求。

“在國內(nèi)當前的應用環(huán)境下,沒有最好的液冷,只有最適合用的液冷,這是我們的一個核心理念”, 趙帥談到。

寫在最后

如何高效建設液冷數(shù)據(jù)中心?這是全產(chǎn)業(yè)都在探究的方向。當前不僅需要將各類服務器全面適配液冷方案,更需要在打通算力層面的基礎上,提升液冷的產(chǎn)業(yè)化能力。畢竟液冷仍處于商業(yè)化的初級階段,產(chǎn)業(yè)提速的核心在于標準化建設、產(chǎn)業(yè)鏈整合,從產(chǎn)品技術、生產(chǎn)組織、品質標準等產(chǎn)業(yè)要素入手,才能讓液冷技術走向更多數(shù)據(jù)中心。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATMEGA644PA-AUR 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44TQFP
$4.99 查看
MPC5554MZP132 1 Freescale Semiconductor 32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416
$80.8 查看
ATXMEGA64D3-MH 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 64QFN
$13.15 查看

相關推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關注人工智能、智能消費電子等領域。電子科技領域專業(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~