軟件熱點(diǎn)層出不窮,并且快速迭代;CPU性能瓶頸,摩爾定律失效;圖靈獎(jiǎng)獲得者John Hennessy和David Patterson在2017年提出了“計(jì)算機(jī)體系結(jié)構(gòu)的黃金年代”,給出的解決方案是特定領(lǐng)域架構(gòu)DSA。
如今,“黃金年代”時(shí)間已經(jīng)過半,我們?cè)賹?duì)這一時(shí)期的體系結(jié)構(gòu)發(fā)展進(jìn)行分析、總結(jié)和展望:
DSA成功嗎?DSA是體系結(jié)構(gòu)的發(fā)展趨勢(shì)嗎?
在黃金年代之后,體系結(jié)構(gòu)新的發(fā)展趨勢(shì)又是什么?
1 “體系結(jié)構(gòu)的黃金年代”成色不足
軟件熱點(diǎn)層出不窮,從以前的云計(jì)算、大數(shù)據(jù)、AI到后來的區(qū)塊鏈、5G/6G、自動(dòng)駕駛、元宇宙等,幾乎每2年左右時(shí)間,就會(huì)有一個(gè)全新的技術(shù)應(yīng)用出現(xiàn)。并且,已有的技術(shù)應(yīng)用,仍在快速地演進(jìn)和迭代。比如,2012-2018年6年時(shí)間里,人們對(duì)于算力的需求增長了超過 30萬倍;也就說,AI算力大約每3.5個(gè)月翻一倍。
2017年,圖靈獎(jiǎng)獲得者John Hennessy和David Patterson提出“計(jì)算機(jī)體系結(jié)構(gòu)的黃金年代”,并指出,由于目前通用計(jì)算的性能瓶頸,需要針對(duì)特定應(yīng)用場(chǎng)景開發(fā)針對(duì)性優(yōu)化的架構(gòu),他們給出的解決方案是DSA(Domain Specific Architecture)。
通過CPU+(集成或獨(dú)立的)GPU/FPGA/DSA處理器,把軟件業(yè)務(wù)通過異構(gòu)計(jì)算加速,如網(wǎng)絡(luò)、存儲(chǔ)、虛擬化、安全、數(shù)據(jù)庫、視頻圖像、深度學(xué)習(xí)等場(chǎng)景。但目前,最大的問題在于,這些領(lǐng)域的加速,從CPU計(jì)算的整體,變成了異構(gòu)計(jì)算的一個(gè)個(gè)各自為戰(zhàn)的“孤島”。
從目前主要的幾個(gè)領(lǐng)域DSA(成功或不成功)的案例,來進(jìn)行分析:
AI DSA。谷歌的TPU,是第一款真正意義上的DSA芯片。很多AI芯片的架構(gòu)也是類似思路下的產(chǎn)物,都是期望在ASIC級(jí)別性能的基礎(chǔ)上實(shí)現(xiàn)一定程度的可編程能力。但不幸的是,AI場(chǎng)景仍屬于應(yīng)用層次:應(yīng)用算法迭代迅速,并且種類繁多;這導(dǎo)致AI DSA的落地并不算很成功。本質(zhì)原因是:DSA架構(gòu)的靈活性無法達(dá)到應(yīng)用層算法對(duì)靈活性的要求。
存算一體。存算一體是一個(gè)非常寬泛的概念,包括近存計(jì)算、存內(nèi)計(jì)算等,甚至存內(nèi)計(jì)算還可以分為內(nèi)存儲(chǔ)計(jì)算和內(nèi)存執(zhí)行計(jì)算。不管是聚焦AI或其他領(lǐng)域,嚴(yán)格來說,存算一體是一種微架構(gòu)及實(shí)現(xiàn)的技術(shù);在系統(tǒng)架構(gòu)層次,存算一體屬于DSA的范疇。存算一體也必須要面對(duì)DSA的核心問題:芯片架構(gòu)靈活性和領(lǐng)域算法靈活性的匹配問題。
網(wǎng)絡(luò)DSA。Intel通過PISA架構(gòu)的網(wǎng)絡(luò)DSA實(shí)現(xiàn)了ASIC級(jí)別性能的基礎(chǔ)上的軟件可編程,可實(shí)現(xiàn)絕大部分網(wǎng)絡(luò)協(xié)議和功能的編程。網(wǎng)絡(luò)DSA是DSA理念下比較成功的案例。本質(zhì)的原因是,網(wǎng)絡(luò)任務(wù)屬于基礎(chǔ)設(shè)施層工作,其靈活性要求相對(duì)不高。因此可以總結(jié):DSA架構(gòu)的靈活性可以滿足基礎(chǔ)設(shè)施層任務(wù)對(duì)靈活性的要求。
除此之外,還需要考慮最終場(chǎng)景落地的問題。站在最終落地場(chǎng)景和解決方案的視角:
客戶不可能只需要一個(gè)DSA,客戶需要的是綜合性的解決方案,DSA實(shí)現(xiàn)的只是客戶場(chǎng)景的一小部分。
并且,在云和邊緣數(shù)據(jù)中心,當(dāng)CSP投入數(shù)以億計(jì)資金,上架數(shù)以萬計(jì)物理服務(wù)器的時(shí)候,它并不知道具體的某臺(tái)服務(wù)器最終會(huì)售賣給哪個(gè)用戶,這個(gè)用戶到底會(huì)在服務(wù)器上面跑什么應(yīng)用。并且,未來,這個(gè)用戶的服務(wù)器資源回收之后再賣個(gè)下一個(gè)用戶,下一個(gè)用戶又用來干什么,也是不知道的。
因此,最終的落地場(chǎng)景需要的一定是綜合的并且相對(duì)通用的解決方案;并且,還需要在通用的基礎(chǔ)上盡可能地提升性能降低成本。
各種獨(dú)立DSA,使得系統(tǒng)越來越碎片化,這跟互聯(lián)網(wǎng)云和邊緣計(jì)算、云網(wǎng)邊端融合等宏觀綜合宏場(chǎng)景的發(fā)展趨勢(shì)是背道而馳的。
2 DSA的價(jià)值所在
2.1 相比ASIC,DSA具有一定的靈活性優(yōu)勢(shì)
在系統(tǒng)復(fù)雜度較低的時(shí)候,ASIC的極致性能和效率,是非常合適的。但隨著系統(tǒng)復(fù)雜度的上升,ASIC的劣勢(shì)逐漸就暴露出來了:
ASIC的迭代跟系統(tǒng)迭代不匹配。復(fù)雜系統(tǒng)的變化要遠(yuǎn)高于簡(jiǎn)單系統(tǒng),而ASIC是緊耦合的設(shè)計(jì),沒法隨著系統(tǒng)功能和業(yè)務(wù)邏輯的快速變化而變化。隨著系統(tǒng)復(fù)雜度的進(jìn)一步上升,ASIC和系統(tǒng)的靈活性沖突會(huì)愈演愈烈。
ASIC性能效率不一定最高。ASIC功能確定,為了覆蓋更多的場(chǎng)景,勢(shì)必需要功能超集。但隨著系統(tǒng)功能的增多,以及每個(gè)用戶能使用到的功能比例相對(duì)減小,功能超集反而拖累了ASIC的性能和資源效率。
ASIC硬件開發(fā)難度大。硬件開發(fā)的難度遠(yuǎn)大于軟件,ASIC由于系統(tǒng)緊耦合的緣故,需要把業(yè)務(wù)邏輯都細(xì)化到硬件電路設(shè)計(jì)中去,這反而顯著地增加硬件開發(fā)的難度。
ASIC難以大規(guī)模。因?yàn)樯鲜鯝SIC硬件開發(fā)的難度,這反過來使得ASIC設(shè)計(jì)很難做到非常大的規(guī)模,而這就約束了其可以支撐的系統(tǒng)規(guī)模大小。
完全硬件ASIC,用戶對(duì)功能和業(yè)務(wù)邏輯沒有太多話語權(quán)。用戶只是“User”,而不是“Developer”,ASIC會(huì)約束用戶的業(yè)務(wù)創(chuàng)新。
DSA可以在ASIC級(jí)別,一定程度上實(shí)現(xiàn)功能和業(yè)務(wù)邏輯的可編程,實(shí)現(xiàn)性能和部分靈活性的兼顧,并且顯著改善ASIC的上述各種問題和挑戰(zhàn)。因此,DSA逐漸成為目前領(lǐng)域加速的主流解決方案。
例如,網(wǎng)絡(luò)DSA的發(fā)展。SDN之前,網(wǎng)絡(luò)芯片的主流實(shí)現(xiàn)是ASIC;SDN發(fā)展的第一步,通過Openflow實(shí)現(xiàn)了控制面可編程;第二步,通過P4實(shí)現(xiàn)了數(shù)據(jù)面的可編程,并且擁有了支持P4可編程的DSA:Barefoot的PISA架構(gòu)和Tofino芯片。
2.2 DSA比較適合基礎(chǔ)實(shí)施層加速
系統(tǒng)是由分層分塊的各個(gè)組件組成的,這些組件大體上分為三類:
基礎(chǔ)設(shè)施層。底層的業(yè)務(wù)邏輯相對(duì)最穩(wěn)定。
應(yīng)用層。由于硬件平臺(tái)運(yùn)行具體哪些應(yīng)用的不確定性,以及應(yīng)用的快速升級(jí)迭代等,使得應(yīng)用層的變化是最快的。
應(yīng)用層可加速部分。應(yīng)用層可抽離出來的一些性能敏感的算法,其靈活性介于基礎(chǔ)設(shè)施層和應(yīng)用之間,變化相對(duì)適中。
如上表格所示,每一個(gè)處理器引擎類型都有其優(yōu)勢(shì)之處,也都有其劣勢(shì)之處:
CPU靈活性最好,目前數(shù)據(jù)中心由于對(duì)靈活性的要求很高,因此服務(wù)器主要還是以CPU處理器為主。但CPU的性能是相對(duì)最低的。
GPGPU相比CPU提升了性能,靈活性雖然有了一些降低,但依然能夠滿足很多場(chǎng)景的要求。比如AI算法和應(yīng)用性能敏感,并且更新?lián)Q代很快,就比較適合GPGPU架構(gòu)。
ASIC由于其最低的靈活性,導(dǎo)致在云和邊緣等復(fù)雜系統(tǒng)中沒有用武之地。
DSA是ASIC的回調(diào),增加了一些靈活性。實(shí)踐證明:DSA不適合變化較快對(duì)靈活性要求較高的應(yīng)用級(jí)的場(chǎng)景,如AI加速場(chǎng)景;DSA適合變化較慢靈活性要求較低的場(chǎng)景,如網(wǎng)絡(luò)加速場(chǎng)景。
2.3 DSA,是算力的主力支撐
一方面,復(fù)雜系統(tǒng)都存在一個(gè)顯著的規(guī)律“二八定律”,也即是說,系統(tǒng)的大約80%的計(jì)算量屬于基礎(chǔ)設(shè)施層,屬于適合DSA加速的部分;另一方面,DSA能夠覆蓋足夠大的一個(gè)領(lǐng)域,并且其一定程度的可編程能力,可以滿足系統(tǒng)的基礎(chǔ)設(shè)施層特定領(lǐng)域任務(wù)對(duì)靈活性的要求。
DSA架構(gòu)的處理器(引擎)就可以在滿足系統(tǒng)靈活性要求的情況下,實(shí)現(xiàn)最極致的性能,以及最極致的性價(jià)比。
我們?cè)購恼麄€(gè)系統(tǒng)角度分析,可以通俗地將系統(tǒng)要進(jìn)行的工作處理當(dāng)做一個(gè)塔防游戲:
依據(jù)系統(tǒng)的“二八定律”,在一個(gè)系統(tǒng)里,DSA完成80%計(jì)算量,GPU完成16%計(jì)算量,CPU兜底完成4%計(jì)算量。
軟硬件融合技術(shù),可以讓硬件的功能更加強(qiáng)大,具有一些通常軟件才有的特征和能力,從而進(jìn)一步提高系統(tǒng)硬件加速的比例。這樣,DSA可以完成90%的計(jì)算量,而留給CPU和GPU的只有剩下的10%。
總之,DSA架構(gòu)處理器必然是整個(gè)系統(tǒng)中的算力中堅(jiān)。
3 DSA的不足之處
3.1 DSA不太適合應(yīng)用層工作
應(yīng)用層DSA最典型案例,非AI芯片莫屬。
AI領(lǐng)域?qū)λ懔Φ臉O致需求,以及行業(yè)巨頭谷歌發(fā)布的全球第一款DSA架構(gòu)處理器TPU,瞬間引爆了AI芯片的全行業(yè)大潮。
但5年左右時(shí)間過去了,即使是谷歌具有從芯片、框架、生態(tài)到服務(wù)的全鏈條的全球頂尖技術(shù),以及幾乎全球第一的行業(yè)號(hào)召力,整個(gè)TPU體系仍然難算成功。谷歌的AI框架,目前在逐漸地往GPU遷移,可以說,AI平臺(tái)目前的趨勢(shì)是:從DSA往GPU回調(diào)。
其他的DSA架構(gòu)的AI芯片,落地的場(chǎng)景和數(shù)量更少。
本質(zhì)原因也很簡(jiǎn)單:AI DSA芯片提供的靈活性跟上層AI算法所需的靈活性要求,相差甚大。我們把這個(gè)表述更加泛化一些:DSA芯片提供的靈活性比較低,而應(yīng)用層算法對(duì)靈活性的要求比較高,兩者相差巨大。
系統(tǒng)是分層分塊的系統(tǒng),一般來說:越底層越確定,越適合DSA架構(gòu)處理;越上層越不確定,越適合CPU這樣的通用處理器處理;而性能敏感的應(yīng)用層算法,比較適合于GPU及同指令復(fù)雜度級(jí)別架構(gòu)(例如Graphcore IPU)的處理器。
AI芯片未來要想落地,需要芯片和應(yīng)用算法的相向而行:
芯片增加更多的靈活性能力(典型案例:Tenstorrent Wormhole,在提升靈活性的同時(shí),提供極致的系統(tǒng)可擴(kuò)展性);
隨著時(shí)間推移,AI算法的靈活性降低,逐漸的沉淀成基礎(chǔ)設(shè)施層任務(wù)。
3.2 DSA使得系統(tǒng)越來越碎片化,跟云網(wǎng)邊端融合的大趨勢(shì)背道而馳
我們的IT設(shè)備和系統(tǒng),通常是經(jīng)過如下四個(gè)演進(jìn)的階段,逐漸走向云網(wǎng)邊端大融合:
第一個(gè)階段,孤島。所有的設(shè)備是獨(dú)立的,沒有聯(lián)網(wǎng),也就沒有云網(wǎng)邊端的說法。
第二個(gè)階段,互聯(lián)。也就是我們的互聯(lián)網(wǎng),把設(shè)備連到一起,設(shè)備和設(shè)備之間可以通信。
第三個(gè)階段,協(xié)同。通常的C/S架構(gòu)就是典型的協(xié)同,這個(gè)時(shí)候,有了云邊端的劃分,誰更擅長于干什么事情就分配什么事情,大家協(xié)同著一起把整個(gè)系統(tǒng)的事情做好。
第四個(gè)階段,融合。協(xié)同某種程度上代表著靜態(tài),隨著時(shí)間的發(fā)展,可能初始任務(wù)劃分不一定能適應(yīng)系統(tǒng)的發(fā)展;而融合代表著動(dòng)態(tài)以及更多的自適應(yīng)性。服務(wù)拆分成微服務(wù),客戶端拆分成瘦客戶端和微服務(wù)。這些微服務(wù)可以完全自適應(yīng)的運(yùn)行在云端、網(wǎng)端、邊緣端或者終端,或者各個(gè)位置端可能都有。
云網(wǎng)邊端融合的時(shí)代,所有的服務(wù)器和設(shè)備的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等資源都統(tǒng)統(tǒng)連成了唯一的一個(gè)巨大的資源池,可以非常方便的共享各種各樣的資源,軟件可以非常方便的部署在任何位置,并且可以非常方便的自適應(yīng)遷移。
然而,DSA的做法,卻跟這一切是背道而馳的:
首先,一個(gè)領(lǐng)域DSA芯片,就意味著架構(gòu)上的一個(gè)孤島。
其次,即使同一領(lǐng)域,也有不同公司的不同架構(gòu)實(shí)現(xiàn)。這些不同架構(gòu)處理器的算力,很難被整合到宏觀大算力池里。
DSA作為“體系結(jié)構(gòu)黃金年代”的重要理念和解決方案,意味著“百花齊放,百家爭(zhēng)鳴”,也意味著計(jì)算的架構(gòu)越來越多,越來越碎片化,越來越難以整合成一個(gè)整體,越來越一盤散沙。從技術(shù)發(fā)展的角度,必然需要走過DSA這樣的階段。但隨著各項(xiàng)技術(shù)的成熟,必然會(huì)逐步走向收斂:通用的、融合的、綜合的處理器,通過更少的架構(gòu),實(shí)現(xiàn)覆蓋更多的用戶、更多的場(chǎng)景、更多的迭代。
3.3 DSA沒有解決體系結(jié)構(gòu)的根本矛盾
如果不考慮性能劣勢(shì)的話,CPU是最好的處理器。其通過最基礎(chǔ)的加減乘除指令,實(shí)現(xiàn)了軟件和硬件的解耦。硬件工程師可以不用關(guān)心具體場(chǎng)景,只關(guān)心處理器的微架構(gòu)和實(shí)現(xiàn);軟件工程師不關(guān)心硬件細(xì)節(jié),只關(guān)心自己的軟件編程,基于這些基礎(chǔ)的指令集,構(gòu)建起了軟件龐大的生態(tài)體系。
GPGPU,依然是成功的。GPGPU相比DSA的優(yōu)勢(shì):
GPGPU可以覆蓋很多個(gè)領(lǐng)域,而DSA只能覆蓋一個(gè)。在芯片一次性成本越來越高的今天,覆蓋更多領(lǐng)域意味著更多的產(chǎn)品銷量以及更低的成本(大芯片成本中一次性均攤成本占比很高)。
NVIDIA GPGPU以及CUDA構(gòu)建起完整的生態(tài),而DSA架構(gòu)則趨向碎片化,構(gòu)建生態(tài)的難度很大。
熱點(diǎn)應(yīng)用意味著最豐厚的價(jià)值。GPGPU的性能和靈活性均衡使其能很好地滿足目前很多熱點(diǎn)應(yīng)用的性能和靈活性要求;而DSA則難以滿足熱點(diǎn)應(yīng)用所需的靈活性(因?yàn)闊狳c(diǎn)應(yīng)用必然快速迭代)。
體系結(jié)構(gòu)最根本的矛盾是什么?簡(jiǎn)單地說,就是性能和靈活性的矛盾,是兩者如何平衡甚至兼顧的問題。通常情況下,兩者是反比關(guān)系,提升一個(gè),另一個(gè)會(huì)降低。體系結(jié)構(gòu)的優(yōu)化和創(chuàng)新,本質(zhì)的,就是在一個(gè)要素不變的基礎(chǔ)上,盡可能地提升另一要素。
DSA在ASIC基礎(chǔ)上,提升了一些靈活性,這是其價(jià)值所在。但與此同時(shí),也引入了一些問題。在整個(gè)系統(tǒng)中,如果只需要一個(gè)特定領(lǐng)域的DSA加速卡,并且不需要GPU等其他加速卡的話,那么整個(gè)系統(tǒng)是典型的CPU+DSA的異構(gòu)計(jì)算系統(tǒng),問題還不突出。
實(shí)際的云和邊緣場(chǎng)景,是很多場(chǎng)景疊加在一起的綜合性場(chǎng)景,不僅僅需要AI加速,還需要虛擬化加速、網(wǎng)絡(luò)加速、存儲(chǔ)加速、安全加速、數(shù)據(jù)庫加速、視頻圖形處理加速等等。如果每一個(gè)領(lǐng)域加速都需要一個(gè)物理的加速卡的話:
首先服務(wù)器的物理空間和接口,就無法滿足這么多張卡的使用。
此外這些卡之間的交互又是一筆額外的代價(jià),在CPU性能捉襟見肘的今天,CPU根本無法承擔(dān)DSA之間的數(shù)據(jù)交互處理。
站在DSA局部的視角,DSA帶來了性能的顯著提升,并且還確保了一定程度的靈活性。但站在整個(gè)系統(tǒng)角度,額外增加的各個(gè)DSA之間的數(shù)據(jù)交互(類似系統(tǒng)解構(gòu)微服務(wù)化之后急速增加的內(nèi)網(wǎng)東西向流量)是需要CPU來處理的,這使得CPU的性能瓶頸問題變得更加嚴(yán)峻。
4 黃金年代之后,體系結(jié)構(gòu)何去何從?
4.1 從分離到融合
DPU目前已經(jīng)成為行業(yè)一個(gè)重要的處理器類型,DPU跟智能網(wǎng)卡最大的區(qū)別在于:智能網(wǎng)卡是單領(lǐng)域的加速卡,而DPU是多領(lǐng)域加速的集成平臺(tái)。DPU的出現(xiàn),說明了,計(jì)算機(jī)體系結(jié)構(gòu)在從DSA的分離向融合轉(zhuǎn)變:
第一階段,CPU單一通用計(jì)算平臺(tái);
第二階段,從合到分,CPU+GPU/DSA的異構(gòu)計(jì)算平臺(tái);
第三階段,從分到合的起點(diǎn),以DPU為中心的異構(gòu)計(jì)算平臺(tái);
第四階段,從分到合,眾多異構(gòu)整合重構(gòu)的、更高效的超異構(gòu)融合計(jì)算平臺(tái)。
4.2 從單異構(gòu)到超異構(gòu)
不考慮物理上多芯片協(xié)同的情況下,我們只考慮計(jì)算架構(gòu)。計(jì)算架構(gòu)從串行到并行,從同構(gòu)到異構(gòu),接下來會(huì)持續(xù)進(jìn)化到超異構(gòu):
第一階段,串行計(jì)算。單核CPU和ASIC等都屬于串行計(jì)算。
第二階段,同構(gòu)并行計(jì)算。CPU多核并行屬于同構(gòu)并行計(jì)算。
第三階段,異構(gòu)并行計(jì)算。CPU+GPU、CPU+DSA以及SOC等屬于異構(gòu)并行計(jì)算。
未來,將走向第四階段,超異構(gòu)并行階段。把眾多的CPU+GPU+DSAs“有機(jī)”整合起來,形成超異構(gòu)。
4.3 從軟硬件協(xié)同到軟硬件融合
系統(tǒng)變得越來越龐大,系統(tǒng)可以分解成很多個(gè)子系統(tǒng),子系統(tǒng)的規(guī)模已經(jīng)達(dá)到傳統(tǒng)單系統(tǒng)的規(guī)模。于是系統(tǒng)變成了宏系統(tǒng),子系統(tǒng)變成了系統(tǒng)。
軟硬件協(xié)同是研究單個(gè)系統(tǒng)軟硬件如何劃分、解耦以及再協(xié)同的,根據(jù)系統(tǒng)的特點(diǎn),選擇CPU、GPU、DSA等硬件處理器類型,如果是DSA等需要開發(fā)的硬件,則需要仔細(xì)考慮軟硬件的工作劃分和交互的接口。
軟硬件融合是研究宏系統(tǒng)的軟硬件“協(xié)同”的,每一個(gè)系統(tǒng)都是不同層次的軟硬件協(xié)同,這些系統(tǒng)間還需要確定任務(wù)劃分、數(shù)據(jù)交互和工作協(xié)同,從而在整個(gè)宏系統(tǒng)層次,呈現(xiàn)出:“軟件中有硬件,硬件中有軟件,軟硬件深度地融合在一起”。
4.4 從開放到更開放
x86架構(gòu)主要在PC和數(shù)據(jù)中心領(lǐng)域;ARM架構(gòu)主要在移動(dòng)領(lǐng)域,目前也在向PC和服務(wù)器領(lǐng)域拓展;加州大學(xué)伯克利分校開發(fā)了RISC-V,RISC-V已成為行業(yè)標(biāo)準(zhǔn)的開放ISA。理想情況,如果形成RISC-V的開放生態(tài),沒有了跨平臺(tái)的損耗和風(fēng)險(xiǎn),大家可以把精力專注于CPU微架構(gòu)及上層軟件的創(chuàng)新。
RISC-V的優(yōu)勢(shì)體現(xiàn)在:
- 免費(fèi)。指令集架構(gòu)免費(fèi)獲取,不需要授權(quán),沒有商業(yè)上掣肘。
- 開放性。任何廠家都可以設(shè)計(jì)自己的RISC-v CPU,共建一套開放的生態(tài),共榮共生。
- 標(biāo)準(zhǔn)化。最關(guān)鍵的價(jià)值。RISC-v的開放性,使得其生態(tài)會(huì)更加強(qiáng)大;RISC-v如果變成主流架構(gòu),就沒有了跨平臺(tái)成本。
簡(jiǎn)潔高效。沒有歷史包袱,ISA更高效。
如果說CPU選擇開放的RISC-v是“選擇”(因?yàn)檫€有x86和ARM可以選)的話,那么在未來的超異構(gòu)計(jì)算時(shí)代,開放則是“不得不選的唯一選項(xiàng)”。
當(dāng)一個(gè)平臺(tái)需要支持的處理器類型和架構(gòu)越來越多,勢(shì)必意味著在其上運(yùn)行程序越來越困難,處理器資源利用越來越低,構(gòu)建生態(tài)的難度越來越高。這樣,我們就需要:
- 一方面,需要從硬件定義軟件,逐步轉(zhuǎn)向軟件定義硬件。并且,軟件需要原生支持硬件加速。
- 另外,一定需要構(gòu)建高效的、標(biāo)準(zhǔn)的、開放的生態(tài)體系(盡可能減少各種類型架構(gòu)的數(shù)量,讓架構(gòu)的數(shù)量逐漸收斂)。
- 最后,還需要開放的、不同類型架構(gòu)處理器(引擎)的,以及跨同類型處理器的不同架構(gòu)的應(yīng)用開發(fā)框架。