在人工智能 (AI) 時(shí)代,AI 芯片大廠英偉達(dá)的 GPU 成為了最強(qiáng)搶手的芯片,也讓英偉達(dá)一躍成為了全球市值最高的企業(yè)。英偉達(dá) CEO 黃仁勛曾多次公開表示,全球公司正在從基于 CPU 的通用計(jì)算向基于 GPU 的加速計(jì)算和生成式 AI 過渡。然而,不管計(jì)算領(lǐng)域的潮流如何更迭,不可否認(rèn)的是,CPU 依然是這個(gè) AI 加速計(jì)算時(shí)代的發(fā)展基石。
在 2024 年 11 月 21 日于深圳召開的“Arm Tech Symposia 年度技術(shù)大會”上,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven 也指出,“無論是現(xiàn)在還是未來,Arm CPU 都將是 AI 運(yùn)行的基石,同時(shí)結(jié)合 Arm 面向基礎(chǔ)設(shè)施、汽車、終端等多個(gè)市場推出的 Arm 計(jì)算子系統(tǒng) (CSS),以及強(qiáng)大的 Arm 生態(tài)優(yōu)勢,Arm 已成功轉(zhuǎn)型為面向未來的應(yīng)用廣泛且至關(guān)重要的計(jì)算平臺技術(shù)提供商?!?/p>
AI 時(shí)代,CPU 為何依然是基石?
雖然目前在云端 AI 市場,以英偉達(dá)為代表的 GPU 廠商占據(jù)了很大的市場份額,黃仁勛也多次強(qiáng)調(diào),“英偉達(dá)將可以利用 GPU 完全取代傳統(tǒng)的基于 CPU 的數(shù)據(jù)中心”。但事實(shí)上,GPU 所能夠取代的只是被用于 AI 計(jì)算的 CPU,或者說將 AI 計(jì)算負(fù)載從 CPU 上部分卸載下來。
因?yàn)閷τ谌魏?AI 基礎(chǔ)設(shè)施或者 AI 設(shè)備來說,CPU 都是最為關(guān)鍵的“大腦”,它具有非常靈活地負(fù)責(zé)各種類型的通用計(jì)算與控制的能力,相比之下 GPU 更多的還是面向圖形計(jì)算和 AI 加速計(jì)算,無法替代 CPU 的通用計(jì)算能力。所以,不管是英偉達(dá)還是 AMD 的八張 GPU 加速卡的服務(wù)器,其中都必須搭載 2 個(gè) CPU。即便是的英偉達(dá)目前最強(qiáng)的 AI 芯片 GB200 當(dāng)中,也依然集成了其自研的基于 Arm 架構(gòu)的 Grace CPU。
而目前云端的主流 AI 加速計(jì)算方案也都是基于“CPU+”的模式,比如 CPU+FPGA、CPU+GPU、CPU+TPU、CPU+ASIC(包括各類 NPU)等。正如前面所說的,CPU是通用計(jì)算內(nèi)核,在負(fù)責(zé)通用計(jì)算與控制的任務(wù)的同時(shí),也能夠靈活地應(yīng)對各種類型的 AI 計(jì)算需求,但是效率偏低,因此需要配合其他類型的芯片來提升 AI 計(jì)算的效率。
比如,AISC、TPU 針對特定的 AI 算法計(jì)算效率最高,但是也僅僅針對特定的 AI 算法,靈活性較低;FPGA 可編程特性帶來了更高的靈活性和計(jì)算效率,但是卻有著芯片面積、功耗、成本等方面的缺點(diǎn);相比較而言 GPU 在 AI 計(jì)算效率、靈活性等方面的比較均衡,但隨著云端 GPU 的成本的越來越高昂;此外,AI 加速計(jì)算的需求也開始更多地從訓(xùn)練轉(zhuǎn)向推理,也推動(dòng)了對于 CPU+ASIC 或者其他混合式 AI 加速計(jì)算方案的需求增長。但不管怎樣,CPU 依然是各類 AI 加速計(jì)算方案的核心。
特別是隨著生成式 AI 開始進(jìn)入到邊緣側(cè)的趨勢之下,也推動(dòng)了 AI 加速計(jì)算從云端轉(zhuǎn)向?qū)τ诔杀?、功耗、能效、隱私保護(hù)更為敏感的邊緣側(cè),CPU 對于 AI 的重要性也更為“凸顯”。
比如目前常見智能手機(jī) SoC,其內(nèi)部的 AI 計(jì)算基本都采用的是異構(gòu)計(jì)算的架構(gòu),即在利用 NPU 進(jìn)行專用 AI 加速的同時(shí),還將利用 CPU、GPU、DSP 來協(xié)同進(jìn)行 AI 計(jì)算,因?yàn)檫@樣的計(jì)算架構(gòu)能夠利用最適合的內(nèi)核來運(yùn)行對應(yīng)的 AI 算法,可以極大的提升 AI 計(jì)算的能效。
再比如對于一些成本和功耗敏感的物聯(lián)網(wǎng)設(shè)備來說,其內(nèi)部甚至都沒有 GPU、NPU 等內(nèi)核,其所有的計(jì)算任務(wù)可能都將是基于 CPU 來做的,同樣對于 AI 的計(jì)算也需要依托于 CPU 來完成。
雖然目前在云端 AI 計(jì)算市場主要由英特爾、AMD 的 CPU,以及英偉達(dá) GPU 所統(tǒng)治,但是 Arm 也早已經(jīng)向云端 AI 計(jì)算市場發(fā)起挑戰(zhàn),并已經(jīng)取得了一些成績。而在邊緣側(cè)的 AI 計(jì)算領(lǐng)域,Arm 更無疑是最大的“贏家”。
James McNiven 透露,截至 2025 年底,全球?qū)⒂谐^ 1,000 億臺基于 Arm 架構(gòu)的設(shè)備可具備 AI 功能,囊括了手機(jī)、PC、穿戴設(shè)備、汽車、服務(wù)器等幾乎所有主要類型的 AI 設(shè)備。
面向 AI 時(shí)代,Arm 已成為 AI 計(jì)算的基石
早在 2021 年 3 月底,Arm 就發(fā)布了全新的 64 位指令集 Armv9,這是Arm架構(gòu)十年來最大的一次版本升級,帶來了AI和安全等方面的全面升級。
具體來說,Armv9升級了SVE2指令集,可以支持從128位擴(kuò)展至2048位的矢量計(jì)算,顯著增強(qiáng)了處理器對矢量計(jì)算的支持,這對于需要大量矩陣運(yùn)算的AI和機(jī)器學(xué)習(xí)應(yīng)用來說,將帶來極大的性能提升。
同時(shí),Armv9還通過優(yōu)化機(jī)器學(xué)習(xí)指令集,提升了機(jī)器學(xué)習(xí)的處理能力。Armv9還推出了CCA機(jī)密計(jì)算機(jī)體系架構(gòu),引入動(dòng)態(tài)域技術(shù),增強(qiáng)了系統(tǒng)安全性,保護(hù)數(shù)據(jù)不會輕易被破解和攻擊,進(jìn)一步提升了AI應(yīng)用的安全性。
此外,Armv9還具有極高的可擴(kuò)展性,使得它能夠廣泛應(yīng)用于從智能終端設(shè)備到大型數(shù)據(jù)中心的各種計(jì)算場景。
可以說,Armv9從設(shè)計(jì)之初,面向的就是未來AI時(shí)代的計(jì)算需求。
James McNiven表示:“Armv9 專為人工智能打造,將引領(lǐng) Arm 計(jì)算平臺邁入下一個(gè)輝煌的 10 年。得益于SVE2 指令集、伸縮矩陣擴(kuò)展 (SME) 、CCA等關(guān)鍵技術(shù), Armv9 不僅能帶來卓越的性能、安全性、可擴(kuò)展性,還能在生態(tài)系統(tǒng)內(nèi)實(shí)現(xiàn)無縫遷移,進(jìn)而帶來更加出色的整體效能。”
談到Armv9如何面向多元化的應(yīng)用場景,為客戶提供更具創(chuàng)新性、差異化的解決方案,James McNiven進(jìn)一步解釋稱, “在人工智能領(lǐng)域我們也意識到異構(gòu)計(jì)算是必要的,意味著我們需要靈活調(diào)配計(jì)算資源,這就是Arm的優(yōu)勢所在。我們一直在 CPU、GPU、NPU 當(dāng)中添加人工智能的能力,能夠?qū)崿F(xiàn)靈活的組合,但這還遠(yuǎn)遠(yuǎn)不夠。對于 Arm 的計(jì)算平臺來說,我們不再是簡單的將這些模塊堆砌在一起,我們將其做成一個(gè)整合的完整的解決方案為大家?guī)砀鄡r(jià)值,我們稱之為 Arm 計(jì)算子系統(tǒng) (CSS)?!?/p>
近幾年來,Arm也已經(jīng)面向基礎(chǔ)設(shè)施、終端等多個(gè)市場推出了 Arm 計(jì)算子系統(tǒng) (CSS),旨在提高前沿 AI 體驗(yàn)的性能、效率和可訪問性,幫助生態(tài)系統(tǒng)合作伙伴更輕松、更快速地打造自己的芯片解決方案。使得 Arm 作為計(jì)算平臺不僅僅惠及單一領(lǐng)域,而是能夠服務(wù)于整個(gè)生態(tài)體系。
目前眾多芯片設(shè)計(jì)廠商基于 Arm 架構(gòu)的處理器正在數(shù)據(jù)中心基礎(chǔ)設(shè)施市場、智能手機(jī)、AI PC、智能汽車等邊緣設(shè)備的 AI 方面發(fā)揮至關(guān)重要的“基石”性作用。
比如在數(shù)據(jù)中心(服務(wù)器)市場,近年來亞馬遜云科技(Graviton系列)、阿里巴巴(倚天系列)、微軟 (Cobalt 100)、谷歌(Axion系列)、華為(鯤鵬系列)等頭部的云服務(wù)廠商都推出了自研的服務(wù)器 CPU,同時(shí)也有像 Ampere等第三方的服務(wù)器 CPU 廠商,均推出了基于 Arm CPU 架構(gòu)的產(chǎn)品。
為了助力 Arm 服務(wù)器 CPU 廠商的設(shè)計(jì),Arm 在 2023 年 10 月還整合了特殊應(yīng)用 IC (ASIC) 設(shè)計(jì)公司、IP 供應(yīng)商、電子設(shè)計(jì)自動(dòng)化 (EDA) 工具供應(yīng)商、晶圓廠與固件開發(fā)商等業(yè)界領(lǐng)導(dǎo)企業(yè)資源,推出了“Arm 全面設(shè)計(jì)” (Arm Total Design),致力于加速并簡化 Neoverse CSS 構(gòu)架系統(tǒng)的開發(fā),協(xié)助各方進(jìn)行創(chuàng)新、加速產(chǎn)品上市時(shí)程,并降低打造客制化芯片所需的成本與阻力。今年 6 月,聯(lián)發(fā)科就有宣布加入 Arm 全面設(shè)計(jì) (Arm Total Design) 生態(tài)項(xiàng)目,不排除聯(lián)發(fā)科也可能基于 Arm 架構(gòu)開發(fā)服務(wù)器 CPU。截至今年 10 月,參與 Arm 全面設(shè)計(jì)的企業(yè)已迅速成長至30 家,并已經(jīng)開始加速基于 Neoverse N 系列或 V 系列 CSS 的測試芯片與小芯片產(chǎn)品的開發(fā)。
在智能手機(jī)市場,Arm 是當(dāng)之無愧的霸主。目前幾乎所有的智能手機(jī) SoC 都是基于 Arm CPU 架構(gòu)(包括蘋果 A 系列處理器和高通驍龍?zhí)幚砥鳎⑶医^大多數(shù)的智能手機(jī) SoC 還采用了 Arm GPU 和互連技術(shù)。同時(shí),在 Arm PC 市場,得益于 Arm 指令集所帶來的高性能、低功耗能力的加持,蘋果的 M 系列處理器大獲成功,并實(shí)現(xiàn)在 Mac 產(chǎn)品上對于英特爾處理器的全面替代;同樣,高通去年推出的全新 AI PC 處理器——驍龍 X 系列也是基于 Arm 指令集架構(gòu)的。
今年 5 月底,Arm 還發(fā)布了首款面向智能手機(jī)和 PC 等終端產(chǎn)品的 Arm 計(jì)算子系統(tǒng) —— 終端 CSS,帶來了最新的 Armv9.2 指令集的 CPU 集群,加入了對于 SVE、SVE2 指令的支持,包括最高性能的 Cortex-X925 CPU、最高效的 Cortex-A725 CPU、更新后的 Arm Cortex-A520 CPU,此外還帶來了性能最高、效率最高的 GPU——Arm Immortalis-G925 GPU 等。
聯(lián)發(fā)科最新推出的天璣 9400 旗艦移動(dòng)平臺就是搭載 Arm Cortex-X925和 Immortalis-G925,為其第二代全大核架構(gòu)、游戲性能及生成式 AI 體驗(yàn)的提升提供了全面的助力。聯(lián)發(fā)科天璣 9400 已被包括 vivo、OPPO、Redmi 等品牌廠商的旗艦手機(jī)所采用。
在汽車市場,全球 15 家頂級汽車芯片制造商均已授權(quán)使用 Arm IP。100% 的高級駕駛輔助系統(tǒng) (ADAS) 芯片供應(yīng)商正在基于 Arm 技術(shù)開發(fā)其下一代芯片。85% 的車載信息娛樂系統(tǒng) (IVI) 采用 Arm 技術(shù)。據(jù)了解,Arm還將于2015年推出汽車計(jì)算子系統(tǒng)。
總結(jié)來說,經(jīng)過多年的發(fā)展,目前 Arm 已經(jīng)成為了數(shù)據(jù)中心、智能手機(jī)、AI PC、智能汽車、物聯(lián)網(wǎng)等眾多行業(yè)發(fā)展的關(guān)鍵基石。特別是隨著 Arm 轉(zhuǎn)型為計(jì)算平臺技術(shù)提供商,憑借業(yè)界領(lǐng)先的高能效、低功耗技術(shù)創(chuàng)新,Arm 也已經(jīng)成為了最普及的 AI 計(jì)算的基石。
面對AI帶來的巨大市場機(jī)遇,Arm認(rèn)為中國市場將是重中之重。James McNiven在此次大會上也指出:“我們相信中國的創(chuàng)新正在引領(lǐng)全球人工智能的變革,因?yàn)橹袊侨蜃畲蟮闹悄苁謾C(jī)和智能汽車市場?!睋?jù)市場預(yù)測,在汽車領(lǐng)域,到2026年L3級的自動(dòng)駕駛車輛將會超過百萬輛,而在今年年底將會有1.7億臺手機(jī)得到人工智能的加持。同時(shí),AI PC的市占率也將超越55%,以AI為主的數(shù)據(jù)中心增長達(dá)到了5倍。預(yù)計(jì)到2032年,中國的人工智能市場規(guī)模將達(dá)到1.1萬億。
多元且強(qiáng)大的軟件生態(tài)系統(tǒng):持續(xù)推動(dòng)軟硬件在 AI 應(yīng)用的協(xié)同創(chuàng)新
高效、節(jié)能的硬件 IP 是 Arm 的一大關(guān)鍵優(yōu)勢,但是相對于其他處理器架構(gòu)來說,Arm 所擁有的龐大的跨平臺軟件應(yīng)用生態(tài)也是另一大關(guān)鍵優(yōu)勢。憑借多年來在 Arm CPU 平臺上進(jìn)行的大量的軟件開發(fā)經(jīng)驗(yàn),Arm 打造了一整套的統(tǒng)一的開發(fā)工具鏈,全面覆蓋了云、邊、端等應(yīng)用生態(tài),開發(fā)者可以一次學(xué)習(xí),即可快速復(fù)用到其他領(lǐng)域。
比如,為了加速開發(fā)者開發(fā)基于 Arm 架構(gòu)的處理器的 AI 應(yīng)用的開發(fā),Arm 今年還推出了全新的 KleidiAI 軟件庫,具有高度優(yōu)化的機(jī)器學(xué)習(xí) (ML) 內(nèi)核的集合,使開發(fā)人員能夠在通過高度優(yōu)化的生成式 AI 框架運(yùn)行 AI 工作負(fù)載時(shí)釋放 Arm CPU 的全部潛力。目前 KleidiAI 已經(jīng)用于 PyTorch、MediaPipe 和 Meta Llama3 的開發(fā)。在此次Arm Tech Symposia 年度技術(shù)大會上,Arm還宣布KleidiAI已經(jīng)和騰訊混元模型集成,為端側(cè)AI的開發(fā)性能提供支持。
可以說,Arm KleidiAI 軟件庫為軟件開發(fā)者帶來充分利用硬件性能的能力,大幅簡化人工智能的開發(fā)。
以上種種,無不體現(xiàn)出 Arm 通過全面的軟件生態(tài)系統(tǒng)支持開發(fā)者和企業(yè)的創(chuàng)新實(shí)踐,并在面向 AI 的軟硬件協(xié)同中所扮演的關(guān)鍵角色。據(jù) Arm 介紹,目前全球有 2,000 多萬名軟件開發(fā)者在基于 Arm 架構(gòu)的設(shè)備上構(gòu)建應(yīng)用。這也意味著更多的設(shè)備、行業(yè)和用例可以享受到在 Arm 平臺上運(yùn)行的能效優(yōu)勢、卓越性能以及加速開發(fā)的助益。
小結(jié):
經(jīng)過多年來持續(xù)的技術(shù)創(chuàng)新和產(chǎn)品迭代,從邊緣設(shè)備上運(yùn)行工作負(fù)載的小型傳感器,到用于訓(xùn)練大型語言模型 (LLM) 的復(fù)雜工作負(fù)載的大型服務(wù)器,Arm CPU 已經(jīng)幾乎“無處不在”。特別是隨著 AI 時(shí)代的到來,憑借在性能和能效之間的完美平衡,Arm CPU 也在根本上推動(dòng)了 AI 的變革,并將在未來幾十年持續(xù)占據(jù)不斷擴(kuò)展的AI生態(tài)系統(tǒng)的核心地位。
編輯:芯智訊-浪客劍