日前,“TOP500”發(fā)布最新運(yùn)算速度排行榜,日本理化學(xué)研究所計(jì)算科學(xué)研究中心(神戶市)的新機(jī)型 Fugaku 以每秒 41.553 京次的運(yùn)算速度超越了美國(guó)超算 Summit,躍居全球首位。Fugaku 登頂?shù)南⒈幻襟w爭(zhēng)相報(bào)道,一些分析文章把 Fugaku 奪冠和蘋(píng)果棄用英特爾,改用 ARM CPU 的事情聯(lián)系起來(lái)大肆鼓吹,仿佛 ARM 將要取代 X86 成為 CPU 的王者。鐵流認(rèn)為,一些媒體的報(bào)道用力過(guò)猛,已經(jīng)偏離事實(shí)了,就超算來(lái)說(shuō),采用 ARM CPU 處理器奪冠成績(jī)值得肯定,但整體市場(chǎng)還主要是 X86 CPU 或 X86 CPU+加速器。
富士通 Fugaku 和 A64FX 值得肯定 ?
日本超算一直自成一體,早些年的京就采用 SPARC 處理器,如今選擇 ARM,而不是主流的 X86,估計(jì)也和日本企業(yè)習(xí)慣于自成一體的做法有關(guān)。
Fugaku 和排名第 37 的 Flow,之所以把處理器指令集從京的 SPARC 改成現(xiàn)在的 ARM,鐵流猜測(cè)一方面和軟銀收購(gòu)了 ARM 有關(guān),另一方面與 SPARC 逐漸式微也有關(guān)系。由于 X86 授權(quán)拿不到,SPARC 又逐步式微,因而選擇近年來(lái)風(fēng)頭正盛,且被日本企業(yè)收購(gòu)的 ARM。
Fugaku 超算和 Flow 采用的是富士通研發(fā)的 A64FX 處理器,這款處理器曾經(jīng)在 Hotchips 會(huì)議上亮相,集成了 52 個(gè)核心,配備 32GB HBM 2 內(nèi)存,帶寬 1TB/s,浮點(diǎn)性能 2.7TFLOPS,使用 7nm 工藝生產(chǎn)。
A64FX 的 52(4+48)個(gè)核心和 SW26010 的 260(4+256)個(gè)核心有相似之處,A64FX 是四個(gè)管理核心+48 個(gè)運(yùn)算核心,SW26010 是 4 個(gè)管理核心+256 個(gè)運(yùn)算核心。得益于 SVE 指令支持 512bit 浮點(diǎn)運(yùn)算單元,這使得 A64FX 的浮點(diǎn)性能大幅強(qiáng)化。
SW26010 相對(duì)于 CPU+加速器的組合有一個(gè)優(yōu)勢(shì),那就是共享存儲(chǔ)避免了顯示拷貝。如果采用 CPU+加速器的組合,數(shù)據(jù)需要在 CPU 和加速器之間來(lái)回倒騰,會(huì)帶來(lái)額外開(kāi)銷。SW26010 的設(shè)計(jì)則避免了這一點(diǎn)。A64FX 采用了和 SW26010 類似的管理核心+運(yùn)算核心設(shè)計(jì),因而在這方面,可能同樣具有這種優(yōu)勢(shì)。根據(jù)富士通的規(guī)劃,F(xiàn)ugaku 只是階段性成果,下一步計(jì)劃升級(jí)到 1000PFLOPS。
炒作 ARM 處理器優(yōu)勢(shì)純屬莫名其妙
誠(chéng)然,F(xiàn)ugaku 和 A64FX 表現(xiàn)出色,但一些媒體把 Fugaku 登頂和蘋(píng)果換芯兩件事情聯(lián)系起來(lái)大肆鼓吹,仿佛 ARM 將要取代 X86 成為 CPU 的王者,這就未免有些不妥了。
就蘋(píng)果拋棄英特爾 CPU,選擇 ARM CPU 的事情來(lái)說(shuō),蘋(píng)果換芯并非技術(shù)因素,而是商業(yè)因素。就桌面 CPU 的性能、功耗、成本、生態(tài)而言,X86 已經(jīng)平衡的非常好了,全球暫時(shí)找不出在桌面 CPU 的性能、功耗、成本、生態(tài)等方面超越英特爾的公司。蘋(píng)果把 X86 處理器換成 ARM 處理器,主要還是基于蘋(píng)果一貫的商業(yè)邏輯,意圖打造蘋(píng)果自己的閉環(huán)生態(tài)鏈,進(jìn)而實(shí)現(xiàn)供應(yīng)鏈的高度掌控。這樣一來(lái),就避免 CPU 上被英特爾分去一杯羹,在 CPU、OS 全部自己掌握后,蘋(píng)果可以借此獲取高額利潤(rùn)。
就 A64FX 來(lái)說(shuō),從數(shù)據(jù)上看,F(xiàn)ugaku 和 A64FX 很出色,F(xiàn)ugaku 的雙精度浮點(diǎn)性能是 Summit 的 2.8 倍,從功耗上看,F(xiàn)ugaku 也是 Summit 的 2.8 倍。也就是說(shuō),在性能功耗比這項(xiàng)屬性上,F(xiàn)ugaku 相對(duì)于 Summit 并沒(méi)有提升。必須指出的是,A64FX 采用的是 7nm 工藝,而 Summit 的 Power9 是 14nm 工藝,GV100 是 12nm 工藝,在處理器工藝領(lǐng)先一代的情況下,F(xiàn)ugaku 相對(duì)于 Summit 的性能功耗比并沒(méi)有提升。作為對(duì)比,當(dāng)年神威太湖之光奪魁時(shí),在絕對(duì)性能和性能功耗比兩項(xiàng)參數(shù)上都有明顯提升。
雖然 ARM 的鼓吹者把低功耗和 ARM 劃等號(hào),國(guó)內(nèi)還搞了一個(gè)綠色計(jì)算產(chǎn)業(yè)聯(lián)盟,打著綠色環(huán)保的名義,掛羊頭賣(mài)狗肉推廣 ARM 服務(wù)器。但從實(shí)踐上看,指令集對(duì) CPU 性能、功耗的影響已經(jīng)微乎其微了,真正對(duì) CPU 性能指標(biāo)有巨大影響的是設(shè)計(jì)水平和制造工藝。一些媒體用 Fugaku 登頂和蘋(píng)果換芯論證 ARM CPU 具有先天優(yōu)勢(shì),將要取代 X86 CPU 完全是莫名其妙。
X86 CPU 依然是超算主流選擇
近年來(lái),神威太湖之光、Summit、Fugaku 相繼在 TOP500 榜單上奪得第一,三款超算處理器的指令集分別是 SW64、Power、ARM,由于冠軍往往吸引了更多的目光,給人一種感覺(jué),仿佛 X86 CPU 在超算里已經(jīng)落伍了。但只要看一下 TOP500 榜單就會(huì)發(fā)現(xiàn),X86 CPU 在 TOP500 里幾乎是刷榜的存在。
鐵流查閱了 TOP500 資料,其中,采用 X86 處理器的超算有 481 臺(tái),采用 Power 的超算有 13 臺(tái),采用 ARM 的有 4 臺(tái),采用 SPARC 的有一臺(tái),是富士通的京,采用 SW64 的有一臺(tái),是神威太湖之光。
?
(HPC TOP500 里非 X86 CPU 機(jī)器,500 臺(tái)里共計(jì) 19 臺(tái))
從宏觀數(shù)據(jù)上看,X86 依然是超算的絕對(duì)主流,SW64、Power、ARM 的占比非常少。由于 X86 的市場(chǎng)份額高,這使 X86 超算在應(yīng)用方面更加便利,相比之下,采用 SW64、ARM 處理器的超算則面臨軟件移植的問(wèn)題,此前,非線性大地震模擬應(yīng)用榮獲戈登貝爾獎(jiǎng),就是工程師將這個(gè)應(yīng)用移植到神威太湖之光超算上。相關(guān)部門(mén)為了擴(kuò)展神威太湖之光的應(yīng)用,也是花了大力氣鼓勵(lì)大家去移植應(yīng)用。由于日本企業(yè)在超算京上已經(jīng)積累了 3000 多項(xiàng)應(yīng)用,未來(lái)日本企業(yè)也會(huì)經(jīng)歷應(yīng)用移植這個(gè)過(guò)程。
總而言之,X86 CPU 依然是超算主流選擇,而且應(yīng)用豐富,便于商業(yè)化。Fugaku 和神威太湖之光這類超算,如果要想把超算性能真正發(fā)揮出來(lái),必須進(jìn)行應(yīng)用移植,在特定行業(yè),或者自成一體的情況下自己玩是沒(méi)問(wèn)題的,但要商業(yè)化全球出售,恐怕就遜色于 X86 超算了。
?
中美歐日角逐 E 級(jí)超算
雖然日本這幾年經(jīng)濟(jì)持續(xù)低迷,在全球超算競(jìng)賽上逐步掉隊(duì),在京之后罕有高性能超算問(wèn)世,但日本企業(yè)的技術(shù)底子還是在的,本次的 Fugaku 則是日本超算實(shí)力的體現(xiàn)。目前,中國(guó)天河、曙光、神威 E 級(jí)超算正在研發(fā)中,美國(guó)和歐洲也在研發(fā) E 級(jí)超算。未來(lái)幾年,中美歐日可能會(huì)就 E 級(jí)超算進(jìn)行一場(chǎng)競(jìng)賽。