眾所周知,中國是全球 GDP 排名第二的經(jīng)濟(jì)大國。不過,很多人可能不知道的是:占中國 GDP 23% 的,是材料產(chǎn)業(yè),2018 年新材料產(chǎn)值 3.9 萬億元,中國目前已形成了全球門類最全、品種與產(chǎn)量規(guī)模第一的材料產(chǎn)業(yè)體系。但在新材料方面,創(chuàng)新能力不足、創(chuàng)新質(zhì)量不高、迭代經(jīng)驗(yàn)欠缺的問題仍然十分突出。[1]
為了解決這些問題,中國于 2016 年正式啟動“材料基因組工程”,旨在以人工智能、機(jī)器學(xué)習(xí)為根本途徑,結(jié)合數(shù)據(jù)庫平臺,對材料進(jìn)行高通量計算、制備、檢測,顛覆傳統(tǒng)材料研發(fā)方式,加速材料領(lǐng)域的發(fā)展。[2]
中科院物理所是材料基因工程的重要研究基地,最近,該所與英特爾和戴爾攜手,借助數(shù)據(jù)增強(qiáng)型超算技術(shù),使用軟硬結(jié)合的計算、存儲、網(wǎng)絡(luò)方案,開發(fā)出面向未來研究需求的新一期材料基因計算和數(shù)據(jù)處理平臺,可以提升新材料研究與成果共享的效率。
此高通量計算,非彼高性能計算
長期以來,傳統(tǒng)的新材料研發(fā),多采取“試錯式”,導(dǎo)致材料研發(fā)周期長、費(fèi)用高。材料基因工程,是指借助于大數(shù)據(jù)和 AI 技術(shù),加快尋找材料“基因”——即原子和分子的排列——與性能之間的關(guān)系。其中,高通量計算系統(tǒng)最為關(guān)鍵,這是可以并行處理大量獨(dú)立工作任務(wù)的計算系統(tǒng),非常適用于需要大量篩選樣品的場景,比如生物、醫(yī)藥的研發(fā)過程,當(dāng)然包括材料基因的模擬計算和篩選,這也是中科院物理所建立新平臺的重中之重。
與傳統(tǒng)的高性能計算系統(tǒng)相比,高通量計算有如下四個突出特點(diǎn):
■? 工作特性: 通常采用線程級并行處理,工作負(fù)載根據(jù)任務(wù)請求不斷變化; |
■??執(zhí)行效率: 更強(qiáng)調(diào)計算與數(shù)據(jù)的集成,數(shù)據(jù)存儲讀寫性能直接影響系統(tǒng)效率; |
■??性能目標(biāo): 更注重提升單位時間內(nèi),并發(fā)的計算與數(shù)據(jù)處理需求數(shù)量; |
■??成本要求: 系統(tǒng)處理能力與線程數(shù)量正相關(guān),單線程成本優(yōu)先可提升整體處理能力。 |
材料基因計算的工作流程
有鑒于此,針對新材料基因計算平臺,中科院物理所提出以下三點(diǎn)要求:
技術(shù)先進(jìn):
新平臺的計算與存儲硬件架構(gòu)要能支撐未來數(shù)年內(nèi)持續(xù)增長的高通量材料基因計算任務(wù),并保持性能優(yōu)勢;
工作穩(wěn)定:
新平臺要肩負(fù)起海量的高通量材料基因計算任務(wù),為避免難以預(yù)計的損失,架構(gòu)的可靠和穩(wěn)定是首要任務(wù);
運(yùn)維便捷:
中科院物理所人力資源緊張,沒有余力為平臺配備專職運(yùn)維專家,需要平臺的運(yùn)維上手便捷。
戴爾和英特爾的解決方案可以雀屏中選,正是因?yàn)闈M足了上述要求。
三方協(xié)作,領(lǐng)跑世界
高通量計算的算力主要來自處理器。新平臺采用的英特爾?至強(qiáng)?金牌 6230R 處理器,在核心數(shù)、線程數(shù)和緩存上,都提升了 30%。此外,還有英特爾?至強(qiáng)?鉑金 9242 處理器滿足特定場景的算力需求,這些處理器配置在戴爾易安信 PowerEdge 服務(wù)器中,從算力上滿足了中科院物理所對于新平臺的第一點(diǎn)需要:技術(shù)先進(jìn)。
英特爾?至強(qiáng)?金牌 6320R 處理器(2020 年)與英特爾?至強(qiáng)?金牌 6230 處理器(2019 年)在主要產(chǎn)品規(guī)格上的對比
接下來,英特爾與戴爾一起,將戴爾易安信 PowerVault ME4 系列存儲、戴爾易安信 Isilon 系列可擴(kuò)展 NAS 存儲、戴爾易安信 VxRail 超融合架構(gòu)以及英特爾? OPA 等先進(jìn)軟硬件產(chǎn)品與技術(shù)引入新平臺。
中科院物理所新一期高通量材料計算和數(shù)據(jù)處理平臺主要硬件架構(gòu)
材料基因計算的結(jié)果是大量非結(jié)構(gòu)化數(shù)據(jù)。新平臺中用到的一系列戴爾 NAS 存儲產(chǎn)品,以出色的效率和卓越的可擴(kuò)展性著稱。4 臺 H400 Isilon 混合橫向擴(kuò)展 NAS 機(jī)和 8 臺 A2000 Isilon 歸檔橫向擴(kuò)展 NAS 機(jī)構(gòu)成統(tǒng)一的分級存儲資源池,分別承載數(shù)據(jù)分析和數(shù)據(jù)安全存儲的重任。二者出色的橫向擴(kuò)展特性,幫助平臺彈性地擴(kuò)展存儲容量。內(nèi)置的 OneFS 操作系統(tǒng)提供高達(dá) 80% 的存儲利用率,并具備多種數(shù)據(jù)保護(hù)和安全性措施,確保平臺數(shù)據(jù)安全可靠,這就滿足了中科院物理所對新平臺對于穩(wěn)定、可靠的需求。
戴爾易安信 VxRail 超融合一體機(jī)用于構(gòu)建云資源池,可共享材料基因計算的數(shù)據(jù)結(jié)果、代碼和計算工具。VxRail 超融合架構(gòu)可以集成戴爾 SDDC(Software Defined Data Center,軟件定義數(shù)據(jù)中心)軟件體系,然后部署 VMware Cloud Foundation 云環(huán)境,從而大大簡化了云平臺的規(guī)劃、搭建和部署,后續(xù)運(yùn)維復(fù)雜度也大幅降低,可以做到“一鍵上云”,運(yùn)維更便捷。
此外,英特爾? OPA 以鏈路層的技術(shù)革新,保護(hù)了網(wǎng)絡(luò)中數(shù)據(jù)包的完整,同時網(wǎng)絡(luò)延遲更低。它的擴(kuò)展性能滿足中科院物理所新平臺未來升級的需求。
隨著新平臺全部節(jié)點(diǎn)全部投入使用,只需一年即可完成目前人類已知的所有無機(jī)晶體材料(約 10 萬個)的計算。此后三到五年,中科院物理所將會繼續(xù)擴(kuò)展平臺計算節(jié)點(diǎn)數(shù)量,翻番算力,將 50 萬個未知材料的數(shù)據(jù)納入數(shù)據(jù)庫中。
“中國材料基因工程領(lǐng)域研究進(jìn)展形勢喜人,有望在 2025 年進(jìn)入世界并跑或領(lǐng)跑行列?!盵3]在中科院物理所、戴爾和英特爾的三方協(xié)作下,預(yù)測正在逐步變?yōu)楝F(xiàn)實(shí)。
參考文章:
[1] 材料基因工程引領(lǐng)我國材料科技創(chuàng)新
http://news.sciencenet.cn/htmlnews/2019/11/433104.shtm
[2] 將 AI 應(yīng)用到新材料 斬斷卡脖子的那根“繩索”
https://finance.sina.com.cn/chanjing/cyxw/2020-09-11/doc-iivhuipp3823471.shtml
[3] 我國材料基因工程 2025 年或領(lǐng)跑世界
http://news.sciencenet.cn/htmlnews/2018/10/418792.shtm