“東數(shù)西算”無疑是2022年一大熱詞,產業(yè)界和學術界就該話題進行了深入的研究探討。
整體上來看,“東數(shù)西算”的實施,一方面是為了更好地利用西部相對優(yōu)惠的電力資源和優(yōu)異的氣候條件,推動數(shù)據(jù)中心的優(yōu)化布局和產業(yè)整體的綠色低碳發(fā)展;另一方面希望借此帶動西部的算力基礎設施建設,促進當?shù)匦畔⒒降奶岣吆?a class="article-link" target="_blank" href="/tag/%E6%95%B0%E5%AD%97%E7%BB%8F%E6%B5%8E/">數(shù)字經濟的發(fā)展。
算力和數(shù)據(jù)是數(shù)字經濟的核心驅動力
在數(shù)字經濟時代,數(shù)據(jù)以幾何級數(shù)增長,隨之而來的是對強大算力的需求?!皷|數(shù)西算”從字面上看,是將東部的數(shù)據(jù)拿到西部計算。
數(shù)據(jù)來源于各種應用,當數(shù)據(jù)積累到一定的程度,且具有快速流轉、多樣類型和價值密度低等特征后,便成了大數(shù)據(jù)。從內容格式來看,大數(shù)據(jù)分成結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù),其中結構化數(shù)據(jù)主要是指關系型數(shù)據(jù),非結構化數(shù)據(jù)主要是音視頻文件等數(shù)據(jù)。從數(shù)據(jù)的使用頻率來看,大數(shù)據(jù)主要分為熱數(shù)據(jù)、溫數(shù)據(jù)和冷數(shù)據(jù)。從存儲角度來看,數(shù)據(jù)可采用文件存儲、塊存儲和對象存儲等方式。從數(shù)字世界的角度來看,以上所有的數(shù)據(jù)最終都會轉變成0和1的二進制數(shù)字,在網(wǎng)絡上傳輸并在芯片上計算、存儲。
《中國算力白皮書(2022年)》顯示,算力是數(shù)據(jù)中心的服務器通過對數(shù)據(jù)進行處理后實現(xiàn)結果輸出的一種能力,最常用的計量單位是每秒執(zhí)行的浮點運算次數(shù)(FLOPS)。算力由計算、存儲和網(wǎng)絡共同支撐實現(xiàn),缺一不可。
從類型上分,算力主要包括通用算力、智能算力、超算算力。其中為人們所熟知的是CPU所提供的算力,例如網(wǎng)頁瀏覽;普通人接觸不多但是能享受到其服務結果的是GPU算力,例如電影渲染;更尖端的則是主要用于科研創(chuàng)新的超算算力,例如天氣預報。日漸興起的邊緣算力是對基于計算所在位置維度的特定算力的統(tǒng)稱,它可能包括通用算力和智能算力。由于應用和規(guī)模的關系,邊緣超算算力存在的可能性幾乎為零。
由于具有不可移動性,各類數(shù)據(jù)中心就是數(shù)據(jù)計算和存儲的中心,存進去的是數(shù)據(jù),傳出來的還是各類數(shù)據(jù)。業(yè)界對是否所有大數(shù)據(jù)都適合拿到西部去計算的討論也頗為熱烈。總的原則是要根據(jù)大數(shù)據(jù)處理對時延的要求進行分類判斷,對處理時延要求極高的大數(shù)據(jù)(例如金融交易、游戲等),應該就近進行計算,這也是“北上廣”等地區(qū)數(shù)據(jù)中心供不應求的重要原因;對處理時延要求不高的大數(shù)據(jù)(如渲染、訓練等),則可以拿到西部進行計算和存儲。通過“東數(shù)西訓”“東數(shù)西存”等方式,實現(xiàn)數(shù)據(jù)的差異化處理。
算力網(wǎng)絡賦能“東數(shù)西算”
“東數(shù)西算”工程啟動后,算力和網(wǎng)絡這兩個原本獨立的詞組成了“算力網(wǎng)絡”這一新詞,成為業(yè)界特別是電信運營商重點關注和研究的方向。
隨著寬帶通信和移動通信的發(fā)展,我國數(shù)據(jù)流量日益增長。據(jù)工信部統(tǒng)計,2015年,DOU(Dataflow of usage,每戶每月上網(wǎng)流量)為200M左右;2021年DOU達13.36GB,暴漲60多倍。數(shù)據(jù)的大幅增長帶動了對數(shù)據(jù)中心的龐大需求。據(jù)中國信息通信研究院統(tǒng)計,我國數(shù)據(jù)中心的在用機架數(shù)量從2011年的不到30萬架,增長到2021年的520萬架,10年期間增長近20倍。
數(shù)量如此之大的數(shù)據(jù)中心,使得原本主要為通信服務的網(wǎng)絡,需要承擔數(shù)據(jù)中心間的流量傳輸,于是數(shù)網(wǎng)協(xié)同被提上了議事日程。在此過程中,電信運營商通過第二平面的建設,重點保障高QoS的業(yè)務,滿足了部分需求。例如中國電信的CN2,支持數(shù)據(jù)、語音、視頻等多種業(yè)務融合的應用。
同一服務商的不同數(shù)據(jù)中心之間可以通過租用裸纖的方式建立DCI通道,但是隨著數(shù)據(jù)流量的增大以及各類應用的發(fā)展,跨區(qū)域、跨服務商的數(shù)據(jù)中心網(wǎng)絡互聯(lián)需求日益強烈,算網(wǎng)協(xié)同就此進入專家的研究視野。通過網(wǎng)絡的支撐,高效地調度不同服務商間的算力,形成算網(wǎng)協(xié)同的解決方案,是目前階段業(yè)界努力的方向。算力和網(wǎng)絡的協(xié)同程度如圖1所示。
圖1 算力和網(wǎng)絡的協(xié)同程度
集群間的網(wǎng)絡聯(lián)接主要是通過骨干網(wǎng),其建設運營相對簡單。我國的5G網(wǎng)絡覆蓋和千兆光網(wǎng)接入的能力已經進入全球前列,網(wǎng)絡基礎設施較為完善?!皷|數(shù)西算”工程的實施,將為算網(wǎng)一體的服務提供更多的應用場景,促進算力和網(wǎng)絡的一體化發(fā)展。
算力資源不同于水電資源,傳輸?shù)氖菙?shù)據(jù)
有人說“算力隨處可取,像自來水一樣擰開龍頭就可以得到”,這個比喻很形象但不嚴謹。
水、電、氣,其屬性各不相同。水是物理存在的自然資源,通過管道運輸,可以利用某些器皿進行儲存;氣也是物理存在的自然資源,通過管道運輸,但是看不見摸不著,可以通過器具儲存;電屬于二次產品,需要風、光、水、煤等自然資源經過轉換才能得到,通過電線傳輸。雖然近年來儲能技術發(fā)展迅速,但總體看儲存難度較大,性價比不高。
算力與水、電、氣的特征比較如表1所示,通過對比不難發(fā)現(xiàn),算力與水電、氣、均不相同。算力是由數(shù)據(jù)中心產生,服務器在哪里,算力就在哪里。在服務器不換位置的情況下,它不可能移動也不能被傳輸。而且算力無法儲存,如果某段時間內服務器沒有使用,那么這段時間的算力也不可能存儲起來供以后使用。
表1 算力與水、電、氣的特征比較
因此,擰開龍頭算力并不會流出來,流動的只能是數(shù)據(jù),而算力更像是一個水池。數(shù)據(jù)源源不斷地流進水池,一些數(shù)據(jù)留下了,另一些數(shù)據(jù)被處理后流出去,邊緣數(shù)據(jù)中心的作用也是如此。由此可見網(wǎng)絡在算力時代的重要性,沒有網(wǎng)絡,數(shù)據(jù)就無法流動,數(shù)據(jù)中心也就發(fā)揮不了作用,成為“沒有生機的沙漠”。
算力調度是高效利用算力資源的關鍵
眾所周知,電網(wǎng)是可以調度的,“拉閘限電”是一種最直接的調度方式。這是由于電網(wǎng)發(fā)電機不能滿足用電負荷需求,或輸變電設備已無法承載更多的負荷,為保證電網(wǎng)或輸變電設備安全,人為采取了去除負荷措施。與電力不同,算力無法移動、傳輸和存儲,那么算力如何調度?
算力調度更多是指調用合理的算力去處理相應的數(shù)據(jù),數(shù)據(jù)中心擁有多種算力,每種算力針對不同類型的數(shù)據(jù)。從計算類型來看,算力主要分為整型和浮點計算。整型計算適用于深度學習模型的推理運算;半精度計算適用于深度學習模型的訓練運算;單精度計算多用于圖形應用程序、圖像處理和機器學習等;雙精度浮點運算主要用于超算領域。這里的分類維度和通用算力、智能算力、超算算力不是一一對應的關系。一般來說,通用算力主要用來處理整型和半精度計算;智算算力更合適進行單精度計算;超算算力特別擅長雙精度計算。各類算力中心重點處理的數(shù)據(jù)類型如表2所示。
表2 各類算力中心重點處理的數(shù)據(jù)類型
基于智算算力的數(shù)據(jù)中心即為智算中心?,F(xiàn)在業(yè)界對智算中心算力的宣傳多集中于多少FLOPS或者OPS等。需要注意的是,在單位不統(tǒng)一、精度不統(tǒng)一的情況下,不同智算中心的性能指標是沒有可比性的。
算力無法儲存和傳輸,如果此時此刻的算力不能被利用,那么也就過期作廢了。因此,如果要高效全面地利用好所有的算力資源(包括不同類型的算力、不同數(shù)據(jù)中心的算力、不同集群的算力),就需要通過統(tǒng)一的調度平臺來實現(xiàn)統(tǒng)一的算力編排,并能在具有一定預期性的前提下,基于統(tǒng)一的算力定價機制完成算力的供給和使用,使得所有類型的算力都能“算”盡其用,所有的算力需求都能得到滿足,使“數(shù)據(jù)”和“算力”達到一種理想的平衡狀態(tài)。
算力和能效
一直以來,大家只要聊起數(shù)據(jù)中心,必然會與高能耗結合起來看。從技術的角度看,數(shù)據(jù)中心的高能耗是由芯片帶來的,因此除非芯片制程(如5nm)或者計算物質(如量子)有根本性變化,否則高算力對應高能耗是一個無法避免的事實。但是相比高能耗,大家更應該看到的是,基于數(shù)據(jù)中心的各種數(shù)字化應用給我們的工作和生活帶來的便利,為企業(yè)數(shù)字化轉型和國家數(shù)字經濟發(fā)展貢獻的發(fā)動機作用。
我國數(shù)據(jù)中心10年間增長近20倍,數(shù)據(jù)中心所消耗的能源絕對值一定是相應增長的,但是經研究,單位算力的能耗卻是一直在下降的。2020年初《Science》刊登的《重新校準全球數(shù)據(jù)中心能耗估算》一文披露,從單計算實例來看,全球數(shù)據(jù)中心能耗強度自2010年以來每年下降20%。
PUE(電能利用效率)是業(yè)界公認的評判數(shù)據(jù)中心能效高低的指標。2022年11月,國家強制標準GB40879—2021《數(shù)據(jù)中心能效限定值及能效等級》正式實施,其中很重要的一條就是對PUE的要求。綠色低碳的深入發(fā)展,使得CUE(碳利用效率)也逐漸成為大家關注的焦點。
從數(shù)據(jù)中心整體的碳排放深入到IT設備的碳效指標,近期開放數(shù)據(jù)中心委員會(ODCC)發(fā)布的ODCC-2022-0500A《數(shù)據(jù)中心算力碳效白皮書》提出了一種服務器的算力碳效模型,定義如下:CEPS=C/S,其中C是碳排放量;S是服務器算力性能。通過測試和研究發(fā)現(xiàn),隨著算力的提升,不同芯片的碳排放增長曲線各不相同。
圖2 服務器使用階段內算力碳效實測值
服務器使用階段內算力碳效實測值如圖2所示,測試結果顯示,在服務器使用周期為5年的情況下,單位算力性能的碳排放量在20kg~60kg之間。由于IT設備特別是服務器在數(shù)據(jù)中心能耗中占比極大,數(shù)據(jù)中心的碳排放將在很大程度上取決于服務器和芯片,這逐漸成為數(shù)據(jù)中心綠色低碳發(fā)展的關鍵。
算力日漸成為新時代的新型生產力,成為數(shù)字經濟發(fā)展的引擎。在算力的發(fā)展過程,可能會遇到各種各樣的問題。通過對這些問題的分析和研究,能讓我們對算力有更清晰的認識,也能更好地推進產業(yè)發(fā)展和“東數(shù)西算”落地。
*本文首發(fā)于《通信世界》2022年12月10日? 第23期? 總第909期
作者:中國信息通信研究院云計算與大數(shù)據(jù)研究所 郭亮
責編/版式:沈新竹
審核:申晴
監(jiān)制:劉啟誠