█?到底什么是智算中心?
智算中心,就是以人工智能計算任務為主的數(shù)據(jù)中心。
數(shù)據(jù)中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計算任務為主的通算中心,以及以超級計算任務為主的超算中心。
2023年以來,以ChatCPT、Sora為代表的AIGC大模型橫空出世,掀起了一股席卷全球的AI浪潮。
想要在AI浪潮中占據(jù)優(yōu)勢,就必須擁有強勁的AI算力支撐。智算中心,作為AI算力的核心基礎設施,逐漸成為人們關注的焦點,也是行業(yè)重點建設的對象。
根據(jù)數(shù)據(jù)顯示,我國目前已經(jīng)有包括武漢、成都、長沙、南京、呼和浩特等在內的20多個城市建設了智算中心。到2025年,國內智算中心數(shù)量將超過50個。
這些智算中心采用專門的AI算力硬件,適合高效運行AI算法。它們可以應用于計算機視覺、自然語言處理、機器學習等領域,處理圖像識別、語音識別、文本分析、模型訓練推理等任務。
█ 智算服務器,到底有什么不同?
智算服務器是智算中心的主要算力硬件。它和傳統(tǒng)通用服務器最大的區(qū)別,在于算力芯片的不同。
傳統(tǒng)通用服務器以CPU作為主要芯片,有的配置了GPU(圖形處理單元)卡,也有的沒配。即便配置了,也數(shù)量不多(1-2塊),以完成傳統(tǒng)圖形處理任務(3D圖形渲染等)為主。
智算服務器,為了保證的操作系統(tǒng)運行,也配置了CPU。但是,為了更好地完成AI計算任務,所以配置了更多的GPU、NPU(神經(jīng)網(wǎng)絡處理單元)、TPU(張量處理單元)等計算芯片(4塊或8塊),以這些芯片輸出的算力為主。
這種“CPU+GPU”、“CPU+NPU”的架構,也被稱為“異構計算”架構,能夠充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。
GPU、NPU、TPU的內核數(shù)量多,擅長并行計算。AI算法涉及到大量的簡單矩陣運算任務,需要強大的并行計算能力。
在實際使用中,GPU、NPU、TPU會做成板卡的形態(tài),插入到智算服務器的插槽中。等服務器上電啟動后,再根據(jù)調度執(zhí)行計算任務。
除了芯片不同之外,為了充分發(fā)揮性能以及保障穩(wěn)定運行,AI服務器在架構、存儲、散熱、拓撲等方面也進行了強化設計。
例如,智算服務器的DRAM容量通常是普通服務器的8倍,NAND容量是普通服務器的3倍。甚至它的PCB電路板層數(shù)也明顯多于傳統(tǒng)服務器。
瘋狂堆料,肯定也會帶來兩者之間的成本差異。一臺智算服務器的價格,可能會達到傳統(tǒng)通用服務器的數(shù)十倍以上。
不久前,中國移動公示了2024年至2025年新型智算中心集采中標結果,采購智算服務器總規(guī)模達到8054臺,中標總金額達到了約191.04億元人民幣(不含稅)。平均下來,每臺的價格是237.2萬元。通用服務器的價格,根據(jù)品牌和配置的不同,大約在1到10萬元之間。
受算力板卡的影響,智算服務器的功耗也明顯大于通用服務器。
以英偉達GPU為例,A100單卡功耗400W,H100單卡功耗700W。配置了8張GPU的智算服務器,僅GPU的熱功耗就能達到3.2~5.6 kW。傳統(tǒng)通用服務器的話,也就0.3~0.5 kW左右。
從外型上來看,智算服務器和通用服務器并沒有很大的區(qū)別。兩者都是標準架構,可以放入42U標準機架。如果內置了較多的AI算力板卡,智算服務器的厚度可能會稍微大一些,達到4U、5U甚至10U。
這里需要注意,根據(jù)工作任務的不同,智算服務器也會分為訓練服務器、推理服務器或者訓推一體服務器。這些服務器在架構和體型上會存在一些差異。一般來說,訓練服務器會比推理服務器更龐大一些(AI算力板卡更多)。
█ 智算中心,會取代通算中心嗎?
智算中心很火。很多人就會問,智算中心是否會取代通算中心?
答案當然是否定的。
AI智算現(xiàn)在正處于風口上,所以大家關注熱度高,建設的規(guī)模也會比較大。
但實際上,大家要注意,我們目前整個社會的大部分計算任務,仍然是承載在傳統(tǒng)通用數(shù)據(jù)中心上的。
我們平時聊微信、看視頻、玩游戲,以及打車、購物、訂票,都是基于傳統(tǒng)通用數(shù)據(jù)中心的算力。
除了消費互聯(lián)網(wǎng)以外,企業(yè)辦公和生產(chǎn)所使用的各類IT系統(tǒng)(包括OA、CRM、ERP等),銀行、保險、證券等金融機構處理客戶交易、存儲客戶數(shù)據(jù)、提供在線金融服務的平臺,醫(yī)院、學校等單位的數(shù)字化系統(tǒng),以及政府的電子政務相關平臺,全部都是以通用數(shù)據(jù)中心為主。
通用數(shù)據(jù)中心廣泛服務于國民經(jīng)濟的各個領域。我們對通用數(shù)據(jù)中心的需求是長期存在的,并不會消失。
數(shù)據(jù)也可以說明問題。
雖然說AI智算發(fā)展迅速,但從機架數(shù)量規(guī)模來看,遠遠不如通算中心。
根據(jù)今年3月份國家數(shù)據(jù)局在青海綠色算力推介會上披露的數(shù)據(jù),截至2023年底,全國在用數(shù)據(jù)中心機架總規(guī)模超過810萬標準機架(包括所有類型數(shù)據(jù)中心)。
智算中心機架數(shù),目前沒有準確的數(shù)據(jù)來源。我們可以推算一下。
前面提到,到2025年,國內會有50個智算中心。以中國移動呼和浩特超大規(guī)模單體智算中心為例,部署服務器總規(guī)模約2950臺,部署機架總規(guī)模為799架,算力板卡1.9萬張,算力規(guī)模6.7EFLOPS。即便是50個智算中心都像呼和浩特這么大,也是50×800=40000個機架。還不到2023年全國在用數(shù)據(jù)中心機架總數(shù)的零頭。
我們也可以從算力規(guī)模來計算。根據(jù)信通院的報告,到2025年,全國的算力總規(guī)模將達到320EFLOPS。其中,智算算力占比要達到35%,也就是說,112EFLOPS。
按呼和浩特智算中心的數(shù)據(jù),單機架平均算力是6.7÷800=0.008375EFLOPS。112EFLOPS就是112÷0.008375=13373個機架。
之所以會這樣,還是因為AI智算服務器的算力比較強。雖然智算算力總體占比看上去高,但機架數(shù)量和數(shù)據(jù)中心數(shù)量占比并不會那么多,估計不會超過10%。
█ 通算中心改成智算中心,可行嗎?
如今,在“雙碳”政策的指引下,新建數(shù)據(jù)中心審批趨嚴,現(xiàn)有合規(guī)數(shù)據(jù)中心資產(chǎn)稀缺。那么,是否可以把通用數(shù)據(jù)中心改為智算中心呢?
答案是肯定的。
數(shù)據(jù)中心的使命,是為服務器托管提供穩(wěn)定的制冷和供電環(huán)境。通算中心和智算中心都是數(shù)據(jù)中心,兩者的主要構成基本上是一致的。
一般來說,服務器等IT算力設備以及交換機等通信設備,屬于客戶自有資產(chǎn),由客戶提供。數(shù)據(jù)中心服務商,負責建設和運維能夠保證服務器等主設備正常運轉的底層基礎支撐設備(也叫配套設備)。
數(shù)據(jù)中心樓宇布局內的底層基礎支撐設備設施,按照業(yè)界的劃分,包括風(制冷)、火(消防)、水(防潮)、電(市電、不間斷電源、柴發(fā))四大部分?;蛘?,也可以分為供配電系統(tǒng)、不間斷電源系統(tǒng)、終端配電系統(tǒng)、電源輔助系統(tǒng)和空調系統(tǒng)等。
前面我們提到,智算服務器的功耗比通用服務器高。在智算中心,單機柜功率密度通常也就會高于傳統(tǒng)數(shù)據(jù)中心。根據(jù)有關機構的數(shù)據(jù),智算中心的單機柜功率密度需要超過30kW,甚至達到100kW以上,而傳統(tǒng)數(shù)據(jù)中心的密度一般在6kW~15kW之間。
智算中心的單機柜功率密度高,改造為智算中心,要提前對數(shù)據(jù)中心的整體供電能力進行重新計算和設計。
如果不需要擴容,那就簡單了。整個改造就以末端改造為主,就是撤掉傳統(tǒng)通用服務器,重新上架智算服務器以及相關網(wǎng)絡設備,重新布線。
如果需要擴容,意味著同樣的面積下,機柜產(chǎn)出更多,改造涉及到供電和制冷系統(tǒng)相關配套設備的采購和安裝,會帶來更多的工作量,也需要更長的改造周期。
擴容和改造肯定也會帶來一些成本負擔。是否需要將傳統(tǒng)通算中心改造為智算中心,除了前面提到的限制新建等客觀因素外,就是看投入產(chǎn)出比。也就是說,改造后的智算中心,是否能帶來更大的經(jīng)濟效益回報。
█ 最后的話
數(shù)據(jù)中心是重要的ICT基礎設施,也是整個社會的算力底座。它源源不斷地輸出算力,滿足我們數(shù)字生活的需要,也支撐了千行百業(yè)的發(fā)展。
隨著時間的推移,AI浪潮將會從狂熱回歸理性,智算中心的建設也會趨緩。如何充分利用好已有的智算資源,讓AI產(chǎn)生價值回報,將會成為更重要、更迫切的任務。
合理布局通算、智算以及超算,構建多種算力類型協(xié)同發(fā)展的格局,將為數(shù)字經(jīng)濟的騰飛奠定更牢靠的基礎,也會推動了整個社會加速邁入智能時代。