加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

元宇宙與大數(shù)據(jù),支撐大數(shù)據(jù)的基礎(chǔ)——硬件架構(gòu)(下篇)

2022/03/02
692
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

元宇宙與大數(shù)據(jù),支撐大數(shù)據(jù)的基礎(chǔ)——硬件架構(gòu)(上篇)

元宇宙與大數(shù)據(jù),支撐大數(shù)據(jù)的基礎(chǔ)——硬件架構(gòu)(中篇)

前篇提到,對于超級大型數(shù)據(jù)中心技術(shù)發(fā)展勢在必行,但是當前大量已經(jīng)在運行的數(shù)據(jù)中心,規(guī)模和架構(gòu)還不完善。目前互聯(lián)網(wǎng)巨頭、ICP(電信與信息服務(wù)業(yè)務(wù)經(jīng)營)和企業(yè)使用DCI(Data Center Interconnect)解決方案為其數(shù)據(jù)中心提供高質(zhì)量且趨近無限帶寬的連接,同時通過自建基礎(chǔ)設(shè)施來控制成本。隨著數(shù)據(jù)中心建設(shè)規(guī)模的海量增長,數(shù)據(jù)中心互聯(lián)需求倍增,如何實現(xiàn)充分利用好有限的光纖資源、獲得可靠的大容量傳輸是數(shù)據(jù)中心互聯(lián)的挑戰(zhàn)之一。

因光模擬信號的業(yè)務(wù)發(fā)放及維護模式不同于普通的數(shù)字網(wǎng)絡(luò),因此隨著數(shù)據(jù)量的不斷增大帶來的設(shè)備量激增,快速開通業(yè)務(wù)、快速精準排障成為數(shù)據(jù)中心互聯(lián)的新挑戰(zhàn)。

因此,在構(gòu)建DCI解決方案時,不僅需要考慮連接帶寬的需求,還需要考慮運維簡化、智能和安全等方面的需求。比如類似于DDC-distributed disaggregated chassis,將大機框分解,采用盒式交換機搭建大轉(zhuǎn)發(fā)能力 DCI 角色設(shè)備。當前的很多ICP已經(jīng)在開始布局相關(guān)產(chǎn)業(yè),比如2019 年 AT&T 提交 DDC 白盒架構(gòu)設(shè)計到 OCP, 2020 年 AT&T 在 IP 骨干網(wǎng)部署 Drive nets DDC 設(shè)備。

這里可以引申出一些關(guān)于數(shù)據(jù)中心硬件架構(gòu)的介紹,比如,葉脊架構(gòu)(Spine-Leaf)。這個最早是由Facebook提出的,其本質(zhì)就是為了適應(yīng)目前正在布局和建設(shè)的全球超大型數(shù)據(jù)中心,對比傳統(tǒng)的網(wǎng)絡(luò)架構(gòu),數(shù)據(jù)吞吐量能力更強(筆者注,這點在智能控制類PCBA的EE可靠性測試中也為必要項)。葉脊架構(gòu)可以劃分為機柜層、Leaf 層和 Spine 層,對應(yīng)的設(shè)備分別為,機柜層(服務(wù)器、ToR 交換機、光模塊);Leaf 層(Leaf 交換機、光模塊);Spine 層:(Spine交換機、光模塊)。

葉脊架構(gòu)主要以 Server 到 Server 之間互聯(lián)流量為主,為了實現(xiàn)內(nèi)部互聯(lián),如機柜間互聯(lián)以及 Leaf-Spine 互聯(lián)的短距高速高模塊需求大幅增加。而 Server 到 Spine 交換機流量壓力得到很大緩解,數(shù)據(jù)中心設(shè)計往往向上也呈現(xiàn)一定的收斂比。與此同時,交換機也伴隨升級:端口數(shù)量越來越多,芯片轉(zhuǎn)發(fā)速率越來越高。國內(nèi)的阿里騰訊,也采用類似的架構(gòu)方式。

更具體的,大概就是數(shù)據(jù)中心的部署,也即是服務(wù)器的部署,交換機可以部署在機柜的頂部,中部,或者底部,通常在頂部利于走線,這種應(yīng)用較多,因此也稱之為ToR(Top of Rack)交換機。

Leaf層,更多起到承上啟下的作用,主要由Leaf交換機構(gòu)成。通過ToR 交換機與 Leaf交換機對應(yīng)劃分出的結(jié)構(gòu)也被稱為 Server Pods。數(shù)據(jù)中心在部署時根據(jù)需求,劃分為 N 個 Server Pods。N 的數(shù)量少則幾十,多則幾百。邊緣的 Pod 又被稱為 Edge 平面,負責出口流量,實現(xiàn)數(shù)據(jù)中心之間的互聯(lián)。

Spine層:Spine 層是整個數(shù)據(jù)中心拓撲網(wǎng)絡(luò)的頂層。

總體來講,數(shù)據(jù)中心架構(gòu)主要目標是服務(wù)于數(shù)據(jù)中心運營支持,既有利于增加單個數(shù)據(jù)中心的服務(wù)器容量,也有利于服務(wù)器網(wǎng)絡(luò)的彼此互聯(lián)。

除了在數(shù)據(jù)中心架構(gòu)的搭建,對應(yīng)的基礎(chǔ)支持,也需要有相應(yīng)的進步,目前最重要的兩塊,就是散熱和供電。

首先來看散熱,我們知道,在數(shù)據(jù)中心機房,為了應(yīng)對散熱的問題,目前總體還是通過風(fēng)冷解決。首先在配置的服務(wù)器和交換機整機模塊上,就帶有風(fēng)扇,同時,在機房中還會額外設(shè)置空調(diào),以及精密空調(diào)去專門調(diào)節(jié)溫度,使得服務(wù)器的工作環(huán)境保持在合適范圍。但是,這同樣帶來耗電問題,成本壓力,甚至整機可靠性問題,同時還帶有額外的噪音。那么是否有方案改善相關(guān)問題呢。我們不妨思考一下上文提到的海底服務(wù)器方案,這種腦洞大開的方式是否有更適合當下基建能力的方案呢。

其實,全球各大企業(yè)在液冷領(lǐng)域紛紛展開嘗試,比如阿里云2016 年首次推出浸沒液冷系統(tǒng),2018 年 6 月位于河北省張家口市建成了全球互聯(lián)網(wǎng)行業(yè)第一個浸沒液冷生產(chǎn)集群,總規(guī)模共計約 2 千多臺液冷服務(wù)器,包括通用計算型、SSD/HDD 存儲型液冷服務(wù)器。在實際的案例中,或許對比國外互聯(lián)網(wǎng)公司,阿里已經(jīng)通過一些實際場景驗證過,比如阿里巴巴電商 2018 到 2020 的雙十一活動,張家口的數(shù)據(jù)中心就很好的支持了當時的超大流量。

同時,刨除腦洞大開的海底服務(wù)器想法,或許當前的產(chǎn)品趨勢方面,浸沒液冷服務(wù)器或許將成為下一個產(chǎn)品形態(tài)趨勢。ODCC發(fā)表的《浸沒液冷服務(wù)器可靠性白皮書》中也有專門提到過:通過分析可知,液冷服務(wù)器具有較低的失效率,整體液冷服務(wù)器對比風(fēng)冷服務(wù)器部件故障率下降約 53%,整體服務(wù)器可靠性符合預(yù)期。(來源:“開放數(shù)據(jù)中心委員會”。)

我們在上文中也討論過過,散熱是數(shù)據(jù)中心面臨的一大問題,那么供電中,根據(jù)能量守恒,本來就會有部分熱能散出,那么至少我們可以思考如何減少這部分熱能的損耗。在電力分配中,產(chǎn)生的熱能(焦耳)與 電流x電阻,通常指功率損耗,單位為瓦(瓦=焦耳/秒)。For DC, PLOSS = I2 x R – For AC, PAVE = IRMS 2 x R

對于相同的功率(P = V x I),保持電壓高(所以電流低),更有機會減少損耗。誠然,這是從整體架構(gòu)減少能源損失,相應(yīng)地,也可以減少冷卻需要面臨的挑戰(zhàn)。

所以不只在數(shù)據(jù)中心應(yīng)用,在Micro-grids以及Aircraft等領(lǐng)域應(yīng)用,HVDC也同步發(fā)展。更通用的電壓級別。

然而,數(shù)據(jù)中心的快速增長也帶來了能源消耗問題。比如,對芯片性能的設(shè)計需求,導(dǎo)致散熱方面增加。一般CPU(中央處理器)TDP(熱設(shè)計功率)也逐漸增加,從100W左右增加到400W左右,甚至用于人工智能(AI)訓(xùn)練的圖形處理器(GPU) ing的功率最高可達2.6kW,這些,在當前的部分超大型服務(wù)器架構(gòu)中,已經(jīng)非常普遍,隨著處理信息,以及計算量增大,特別是,如果著眼于元宇宙所描述的應(yīng)用場景,通過VR,AR等終端設(shè)備進行社交互聯(lián),游戲,辦公,會議等豐富場景,在未來,AI訓(xùn)練GPU功率有望達到10kW。畢竟在處理AI深度學(xué)習(xí)計算時,GPU比CPU更強大,隨著計算應(yīng)用變得更加復(fù)雜,GPU將變得更加流行。或者保守一點說,芯片架構(gòu)可能會做更多層面的整合。

數(shù)據(jù)中心的內(nèi)部冷卻系統(tǒng)每年消耗大量的電力,大大增加了運行和維護成本,因此,如何提高數(shù)據(jù)中心的散熱效率,提高數(shù)據(jù)中心的可持續(xù)性已成為社會普遍關(guān)注的焦點,其中最有效的一種就是液體冷卻。首先比熱容層面,液體作為傳熱介質(zhì)具有天然優(yōu)勢,到熱效率更高,也可以避免服務(wù)器室內(nèi)局部熱點等問題,對于整體環(huán)境空氣循環(huán)的控制要求降低了。也就是說,既可以更迅速散熱,也節(jié)省額外的降溫設(shè)備,比如風(fēng)扇配件,精密空調(diào)等。綜上,液冷系統(tǒng)可以顯著降低數(shù)據(jù)中心以上的所有能源消耗和PUE(Power Usage Efficiency電力使用效率)。 此外,由于液冷系統(tǒng)的泵和其他儀器要比風(fēng)扇安靜,液冷系統(tǒng)的噪音要比風(fēng)冷系統(tǒng)低得多,因此可以創(chuàng)建“安靜的數(shù)據(jù)中心”。

圖片來源:Picture from PSMA HVDC

所以首先,為了應(yīng)對散熱問題,從服務(wù)器形態(tài)來看,整機服務(wù)器,交換機等產(chǎn)品形態(tài)有所升級改變。那么,除了產(chǎn)品形態(tài)本身的調(diào)整,還有哪些部分做出了變化了呢,其中一塊就是——供電模式。

在供電方面,電力系統(tǒng)網(wǎng)絡(luò)分為三個部分; 發(fā)電、輸電和配電。輸電系統(tǒng)用于將發(fā)電系統(tǒng)與負荷連接起來。采用高壓輸電,減少輸電損耗。分為HVAC和HVDC兩種;電源交流電源的形式產(chǎn)生,大部分負載被設(shè)計成運行在交流電源上。因此,在傳統(tǒng)的傳輸系統(tǒng)中,電力是通過HVAC傳輸線傳輸?shù)?,但也有一些缺點,實際上目前越來越多應(yīng)用開始像HVDC方向發(fā)展。

當然,我們知道很多高功率架構(gòu)應(yīng)用會有相似之,實際上電源行業(yè),關(guān)于UPS與HVDC何者才是下一趨勢方面,是由一定爭議的。在具體的應(yīng)用方面,大家看法會有不同。當然,筆者在很多報道中,都看到大家會把一些概念混淆,或者嚴格區(qū)分UPS和HVDC,導(dǎo)致有些新聞看起來一頭霧水,一會兒說HVDC要全面替代UPS啦,一會兒又說HVDC是UPS的關(guān)鍵,究其原因,或許和翻譯,以及表述有關(guān)。不間斷電源系統(tǒng)(uninterruptable power System, UPS)和高壓直流(high voltage Direct current, HVDC),前者表述一整個供電系統(tǒng),后者是一種供電架構(gòu)。

實際上,我們?nèi)绻麖墓╇娤到y(tǒng)角度來解讀,UPS不間斷電源供電系統(tǒng)是由UPS蓄電池提供不間斷電源,經(jīng)過直流交流直接的變換,主要由UPS主機,蓄電池,電池箱等組成。高壓直流HVDC供電系統(tǒng),是由交流配電單元,整流單元,直流配電單元等組成,主要為通信設(shè)備供電。

所以,我們只能理解為,傳統(tǒng)UPS的主流方案,是更多一HVAC(High voltage alternating current)方案為主流,但是作為當前的UPS系統(tǒng),總體方案更加傾向于HVDC高壓直流方案了。其實從方案架構(gòu)上,我們知道,能源方案領(lǐng)域,服務(wù)器電源通信電源在功率級別以及方案架構(gòu)上有一定相似性,而前兩年通訊電源市場發(fā)展速度較快,特別是基站建設(shè)速度斐然。當然,目前基站設(shè)備供電主要采用-48V DC遠距方案,而隨著5G時代的到來,因為5G的MIMO方式,總體基站數(shù)量增加電池的集中部署導(dǎo)致AAU與機房的空間距離進一步增大,有望推動HVDC直流遠距方案和DPS分布式供電方案的出現(xiàn)。與傳統(tǒng)UPS方案相比,升級到HVDC具有更高的運行效率、更少的占地面積、更低的投資和運行成本, 2018年下半年以來,高壓直流產(chǎn)業(yè)化、市場化的制約因素逐步消除,市場需求進一步開放,行業(yè)進入加速增長期。在高壓直流輸電系統(tǒng)的配電裝置中,如空氣開關(guān)、繼電器等都需要在高壓直流下工作,選型要求高,成本高,且高壓直流輸電存在一定的安全風(fēng)險。 不間斷電源UPS系統(tǒng)的供電效率得到了很大的提高,可靠性和可維護性得到了加強,當前部分品牌整機效率達到95%以上。

綜合以上,我們可以看到在數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)方面,溫度控制,與供電方案都非常重要,并且二者在設(shè)計中有相互交叉的領(lǐng)域,可以說在整體解決方案中,良好的熱能回收,溫度控制,結(jié)合效率更高的整體供電方案,將是打造大型數(shù)據(jù)中心建設(shè)的關(guān)鍵。也由此,大數(shù)據(jù)行業(yè)的成長,不僅僅在我們理解的“飄在云端“的軟件架構(gòu),與數(shù)據(jù)管理層面,更潛移默化帶動基礎(chǔ)設(shè)施建設(shè),能源管理,電路規(guī)劃等方面的技術(shù)成長,并積極帶動很多相關(guān)企業(yè)的發(fā)展。

同時,“大數(shù)據(jù)“發(fā)展,也像是通訊基站發(fā)展一樣,影響到我們更多與新能源相關(guān)的產(chǎn)業(yè)發(fā)展。我們知道數(shù)據(jù)中心亦或是通訊基站耗電量巨大,所以我們已經(jīng)基本介紹過,數(shù)據(jù)中心在總體設(shè)計方案上,如果優(yōu)化軟件架構(gòu),硬件開源,合理配置供電模式等操作,同時,好消息是,全球太陽能發(fā)電量將從2015年的3.91億瓦增加到2020年的6億瓦,并且再成本方面也有優(yōu)勢,到2020年,全球太陽能價格將與火電價格持平?;A(chǔ)設(shè)施耗電量的增加,傳統(tǒng)的備用電力策略也需要進行改革。

此外,我們知道UPS 電源或者直流開關(guān)電源連接著電池,用于能量儲存,保證系統(tǒng)運行的穩(wěn)定性。傳統(tǒng)的鉛酸電池密度低,體積大,重量大。有些地點可能難以容納鉛酸蓄電池的巨大重量和尺寸。鋰電池已經(jīng)發(fā)展了大約20年。隨著電動汽車特別是近年來的快速應(yīng)用,鋰電池的成本迅速下降。 預(yù)計2021年的資本支出(CAPEX)將與鉛酸電池持平,鋰電池具有周期長、速率高、體積小、重量輕等特點,成為能源領(lǐng)域替代鉛酸電池的最佳選擇。

綜上,我們從“元宇宙”令人困惑的概念生發(fā)出來,理解大數(shù)據(jù),進一步了解了,大數(shù)據(jù)發(fā)展是從何推動實業(yè)發(fā)展的。從“硬件開源”的美好愿景,到超級大型數(shù)據(jù)中心的新型產(chǎn)業(yè)模式,以及對應(yīng)推動其他領(lǐng)域技術(shù)的共同進步。比如,大型數(shù)據(jù)中心,通信設(shè)備的建立,同時也推動了光伏與儲能等新能源領(lǐng)域產(chǎn)業(yè)的發(fā)展。綜上,從基礎(chǔ)設(shè)施,硬件發(fā)展的角度,我們或許可以對“元宇宙“有更強信心,并抓住機遇,發(fā)展與之相關(guān)的領(lǐng)域,推動技術(shù)變革。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

兔爾摩斯,芯片領(lǐng)域應(yīng)用工程師背景。 主要分享消費類電子領(lǐng)域行業(yè)動態(tài),硬件方案等。希望專欄文章,能夠幫助到行業(yè)同仁,同時,在寫作和整理地過程中,也不斷鞭策自己,學(xué)無止境,業(yè)精于勤。