雖然摩爾定律已經(jīng)終結(jié),但提升計(jì)算性能的需求卻永無(wú)止境。為此,采用傳統(tǒng)方法的成本與功耗也將成倍增加。
與此同時(shí),為減緩氣候變化所帶來(lái)的影響,我們需要更加高效的數(shù)據(jù)中心。全球數(shù)據(jù)中心每年的能耗已經(jīng)超過(guò)200兆瓦時(shí),占全球總能耗的2%。
最新發(fā)布的Green500榜單展現(xiàn)了加速計(jì)算的能效。上榜的均是全球最高效的超級(jí)計(jì)算機(jī),其中排名前30的系統(tǒng)都采用了加速計(jì)算。加速計(jì)算在能效方面的影響是非常驚人的。
據(jù)NVIDIA估計(jì)TOP500榜單上的系統(tǒng)每年需要消耗超過(guò)5太瓦時(shí)或價(jià)值7.5億美元的能源。
但如果TOP500榜單上的系統(tǒng)都能夠像Green500榜單上排名前30的系統(tǒng)那樣高效,那么這一數(shù)字就能削減80%以上,即只需消耗1.5億美元的能源,足足節(jié)省4太瓦時(shí)。
反之,以如今TOP500系統(tǒng)的電力預(yù)算,如果這些超級(jí)計(jì)算機(jī)都能達(dá)到Green500榜單中排名前30的系統(tǒng)的效率,則能夠提供5倍于如今的性能。
而最新Green500系統(tǒng)所突顯的效率提升還只是冰山一角。NVIDIA正在不斷改進(jìn)其CPU、GPU、軟件和系統(tǒng)組合的能耗。
Hopper在Green500榜單上的首次亮相
在最新Green500榜單上排名前30的系統(tǒng)中,有23個(gè)采用了NVIDIA的技術(shù)。
其中最引人注目的是,紐約市Flatiron研究所的風(fēng)冷式ThinkSystem位列Green500榜首,它由聯(lián)想公司制造,搭載了NVIDIA Hopper H100 GPU。
這臺(tái)超級(jí)計(jì)算機(jī),又名Henri。根據(jù)Green500的數(shù)據(jù),Henri每瓦可進(jìn)行650億次雙精度浮點(diǎn)運(yùn)算,將被用于解決計(jì)算天體物理學(xué)、生物學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)和量子物理學(xué)領(lǐng)域的問(wèn)題。
TOP500新上榜單的系統(tǒng)中,速度最快的新計(jì)算機(jī)是非營(yíng)利性聯(lián)盟Cineca管理的Leonardo。該系統(tǒng)采用了近14,000個(gè)NVIDIA A100 GPU,在TOP500榜單中位列第4,同時(shí)在Green500榜單中也排在第13位。
在TOP500榜單上,共有361個(gè)系統(tǒng)采用了NVIDIA技術(shù),而90%的新系統(tǒng)都采用了NVIDIA技術(shù)(參見(jiàn)圖表)。
最新TOP500榜單上使用NVIDIA技術(shù)的系統(tǒng)數(shù)量達(dá)到歷史新高。
新一代加速數(shù)據(jù)中心
NVIDIA還在開(kāi)發(fā)能夠?yàn)榧铀贁?shù)據(jù)中心提供更高能效與性能的新計(jì)算架構(gòu)。
今年早些時(shí)候發(fā)布的Grace CPU和Grace Hopper超級(jí)芯片將進(jìn)一步大幅提升NVIDIA加速計(jì)算平臺(tái)的能效。憑借Grace CPU和低功耗LPDDR5X內(nèi)存的驚人效率,Grace CPU超級(jí)芯片的每瓦性能最高可達(dá)到傳統(tǒng)CPU的兩倍。
假設(shè)一座100萬(wàn)瓦的高性能計(jì)算數(shù)據(jù)中心將20%的電力分配給CPU分區(qū),將80%的電力分配給使用Grace和Grace Hopper的加速分區(qū),則與基于x86、采用類似分區(qū)方法的數(shù)據(jù)中心相比,該數(shù)據(jù)中心可以在相同的電力預(yù)算下完成1.8倍的工作。
DPU進(jìn)一步提升效率
除了Grace和Grace Hopper,NVIDIA網(wǎng)絡(luò)技術(shù)也大大加快了云原生超級(jí)計(jì)算的速度。同時(shí),仿真使用量的增加也推動(dòng)了對(duì)超級(jí)計(jì)算服務(wù)的需求。
包含了 NVIDIA BlueField-3 DPU的NVIDIA Quantum-2 InfiniBand平臺(tái)提供了云計(jì)算服務(wù)提供商和超級(jí)計(jì)算中心所需的極高性能、廣泛的可用性與強(qiáng)大的安全性。
最近的一份白皮書(shū)對(duì)此進(jìn)行了描述,展示了如何使用DPU來(lái)卸載和加速網(wǎng)絡(luò)、安全、存儲(chǔ)或其他基礎(chǔ)設(shè)施功能以及控制平面應(yīng)用,從而將服務(wù)器功耗降低30%。
節(jié)省的電量與服務(wù)器負(fù)載量成正比。一座擁有1萬(wàn)臺(tái)服務(wù)器的大型數(shù)據(jù)中心在三年的服務(wù)器壽命期內(nèi),可以輕松節(jié)省500萬(wàn)美元的電費(fèi),另外還可以節(jié)省冷卻、輸電、機(jī)架空間和服務(wù)器投資方面的成本。
加速計(jì)算結(jié)合DPU在網(wǎng)絡(luò)、安全和存儲(chǔ)方面的能力,已成為未來(lái)提升數(shù)據(jù)中心能效的重要一步。
事半功倍
科學(xué)研究的方法在迅速轉(zhuǎn)變,通過(guò)基于數(shù)據(jù)分析、人工智能和物理學(xué)仿真等方式的驅(qū)動(dòng),更高效的計(jì)算機(jī)將能夠成為下一代科學(xué)突破的關(guān)鍵。
NVIDIA正致力于為研究者提供針對(duì)這種全新科學(xué)研究方法進(jìn)行優(yōu)化的多學(xué)科高性能計(jì)算平臺(tái),同時(shí)兼顧性能與效率,助力科學(xué)家能夠藉此開(kāi)展造福全人類的重大研究。