作者 |??ZeR0,編輯?|??漠影
上周,全球最大云計算巨頭亞馬遜云科技自主研發(fā)的Graviton4處理器全面上市,最初為全新實例Amazon EC2 R8g提供支持。這件事還挺讓人感慨,有種Arm服務(wù)器CPU千帆過盡、苦盡甘來的既視感。服務(wù)器CPU領(lǐng)域曾經(jīng)上演風水輪流轉(zhuǎn),早期由一眾精簡指令集前輩一統(tǒng)天下,后來被復雜指令集架構(gòu)x86逆襲蠶食。
等精簡指令集中的后輩Arm想闖數(shù)據(jù)中心賽道時,x86早已全面霸場。其實Arm早在2008年就對這個新興市場躍躍欲試,結(jié)果一晃十年過去,幾經(jīng)試水,愣是沒激起零星的水花。第一張進入數(shù)據(jù)中心市場的門票,還是云計算產(chǎn)業(yè)老大哥亞馬遜云科技送來的。當時亞馬遜云科技發(fā)了個“三連擊”:
1、2015年1月,出其不意地收購以色列芯片設(shè)計企業(yè)Annapurna Labs,引起產(chǎn)業(yè)密切關(guān)注;
2、2017年,推出首款自研網(wǎng)絡(luò)芯片Amazon Nitro,把全球第一款商用的DPU芯片送上歷史舞臺;
3、2018年,發(fā)布首款Amazon?Graviton處理器,讓Arm服務(wù)器CPU在數(shù)據(jù)中心歷史中有了清晰的坐標。
隨后亞馬遜云科技緊鑼密鼓開展了教科書般的多線定制芯片攻關(guān),其他中美大廠也相繼跟上自研處理器的風潮。漫長的服務(wù)器CPU拉鋸戰(zhàn),終于從x86單方面碾壓,變成Arm陣營聲勢漸漲。Graviton亦逐漸坐穩(wěn)全球最廣泛使用的Arm服務(wù)器CPU,亞馬遜云科技更是被視作帶領(lǐng)Arm生態(tài)在數(shù)據(jù)中心開疆辟土的“全村的希望”。伯恩斯坦去年的一份報告顯示,亞馬遜云科技占據(jù)了全球超過一半的Arm服務(wù)器CPU市場。
▲亞馬遜云科技五年發(fā)布五款Graviton處理器(圖源:智東西)
今天,大廠自研芯片屢見不鮮,但成功者寥寥可數(shù)。亞馬遜云科技用五年寫出的這本自研服務(wù)器CPU參考教材,值得被反復咀嚼。
01.六年死磕CPU自研創(chuàng)新,給Arm服務(wù)器芯片開路
一代開山路,二代奠江湖。這是亞馬遜云科技自研服務(wù)器芯片發(fā)家的真實寫照:2018年11月發(fā)布的Graviton處理器,發(fā)出了云計算大廠自研CPU的第一聲槍響;一年后,繼任者Graviton2出場,標志著Arm服務(wù)器CPU正式進入數(shù)據(jù)中心市場競爭中,與x86掰手腕。Graviton2集成了300億顆晶體管,核心數(shù)量足足是上一代的4倍,并翻倍提升了L1/L2緩存,總線帶寬達到2TB/s,相比上一代實現(xiàn)了7倍的性能提升。
與基于x86的同類實例相比,基于Graviton2的實例性能提高了40%,每個實例成本降低了20%。在低功耗上的出色表現(xiàn),使亞馬遜云科技大舉將通用工作負載轉(zhuǎn)移到Graviton2上,以節(jié)省電力和成本。此后,Graviton系列的采用率飆升,覆蓋的工作負載從起初的Cache和Web擴展到數(shù)據(jù)分析、機器學習、高性能計算等。
Graviton在市場的初步告捷,堪稱改變Arm命運的節(jié)點。這背后,亞馬遜云科技在底層創(chuàng)新上頗費心思:首次不再使用同步多線程技術(shù),而是實現(xiàn)物理核心單線程資源獨享,讓每個vCPU獨占1個物理核心,使vCPU之間更加隔離,不會因爭搶資源而導致性能抖動。
從第一代到第二代,Graviton通過增加核數(shù)取得了可觀的性能提升,但到第三代,亞馬遜云科技需要納入更多的設(shè)計創(chuàng)新。增加核數(shù)、提升主頻,是提升性能的兩個常見手段。2021年發(fā)布的第三代Graviton3沒有采用這些思路,核心數(shù)不變,主頻僅略微提升。因為提高頻率對于大規(guī)模數(shù)據(jù)中心來說會比較冒險,可能會帶來大量的能耗,而且需要搭配升級的電源及散熱配置,最終導致客戶的使用成本上升。Graviton3做了幾項有別于前代的創(chuàng)新:
1、采用Chiplet設(shè)計,將7塊硅die封裝在一起;
2、采用指令級并行方法,提高了單個核心周期可執(zhí)行的指令數(shù)量,使核心能完成更多任務(wù);
3、針對內(nèi)存帶寬和延時敏感型工作負載,增加了40%的內(nèi)存空間,并采用DDR5將內(nèi)存通道帶寬提升50%。
結(jié)果,相比上一代,Graviton3能將應用負載的性能無差別提升25%,功耗相比x86實例降低多達60%。通過內(nèi)置機器學習硬件加速單元,這顆處理器還實現(xiàn)了3倍的機器學習性能提升,并被AI研究人員和企業(yè)用于云中的MLOps。?
2022年推出的Graviton3E,專門針對浮點和向量指令運算進行了優(yōu)化,向量計算性能達到Graviton3的2倍,尤其適用于人工智能/機器學習、高性能計算等應用場景。最新一代Graviton4用上了更好的Neoverse-V2核心,并將核心數(shù)增加到96核,每個核心的L2緩存提升1倍至2MB,內(nèi)存帶寬提升75%。?
每一代Graviton都會較上一代有兩位數(shù)的性能提升,并且單位算力功耗不斷下降。而節(jié)能減排對于數(shù)據(jù)中心的可持續(xù)發(fā)展極其重要,Twitter、Databricks、F1方程式賽車、Snap等知名云客戶都使用了基于Graviton的服務(wù),并對其降本增效的優(yōu)勢贊譽有加。據(jù)外媒報道,到2022年年中,Graviton約占亞馬遜云科技CPU實例的20%,其中大部分是Graviton2,亞馬遜云科技新增虛機實例中約50%都是Graviton系列。一些云客戶公開背書稱,他們通過租用Graviton服務(wù)節(jié)省了10%~40%的計算成本。作為Graviton早期用戶的大宇無限,用Graviton2將大數(shù)據(jù)作業(yè)的成本降低了20%;大量使用Graviton2實例的涂鴉也升級到新一代實例,將IoT平臺加解密性能提高50%。根據(jù)市場調(diào)研機構(gòu)IDC的數(shù)據(jù),2023年第一季度Arm服務(wù)器出貨量市占率約為10%。此時Arm在服務(wù)器市場的生態(tài)問題已經(jīng)初步得到解決。截至目前,亞馬遜云科技在全球六大洲33個地區(qū)和100多個可用區(qū)累計部署了超過200萬張Graviton處理器。這些處理器驅(qū)動了超過150種計算實例,被全球超過5萬的企業(yè)和開發(fā)者所使用。
02.唯一實現(xiàn)大規(guī)模使用Arm架構(gòu)的云大廠
在服務(wù)云客戶的過程中,亞馬遜云科技團隊發(fā)現(xiàn)如果希望針對所有可能的工作負載徹底變革計算的性價比,需要徹底重新思考實例,深入底層技術(shù),包括定制芯片。為什么是基于Arm架構(gòu)設(shè)計芯片?對于亞馬遜云科技來說,這既是形勢所迫,又是前瞻布局。首先,Arm的許可證相對易得,而且設(shè)計自由度高,便于亞馬遜云科技設(shè)計出更符合云業(yè)務(wù)需求的處理器。其次,省電長期是數(shù)據(jù)中心的老大難??紤]到規(guī)模效應,每個芯片節(jié)省的幾瓦特都很重要。而Arm已經(jīng)被移動處理器市場檢驗過高能效、高算力密度、低成本等優(yōu)勢。另外前文我們提到過,Graviton在提升頻率上很謹慎,通過更高的指令級并行來補足性能,使其在性價比上更有競爭力。在高CPU利用率下,Graviton中每個vCPU獨占一個物理核心,不存在爭用問題,能保持依然快的速度,其價格優(yōu)勢則會變得明顯。據(jù)亞馬遜云科技披露,相比采用Graviton3的第七代R7g實例,基于新一代Graviton4處理器的Amazon EC2 R8g實例性能提高了30%,實例大小更大,vCPU和內(nèi)存增加多出3倍,能為數(shù)據(jù)庫、內(nèi)存緩存和實時大數(shù)據(jù)分析等內(nèi)存密集型工作負載提供更好的性價比。與R7g實例相比,R8g實例可將Web應用程序最高提速30%,數(shù)據(jù)庫最高提速40%、大型Java應用程序最高提速45%。其性能和性價比優(yōu)勢已經(jīng)得到一些實測驗證。
根據(jù)Phoronix發(fā)布的一些基準測試結(jié)果,在相同vCPU數(shù)量時,新Graviton4核心大致與英特爾Sapphire Rapids性能相當,同時能媲美AMD第四代EPYC,在運行高性能計算、加密、代碼編譯、光線追蹤、數(shù)據(jù)庫、3D建模等工作負載時,代際進步整體非常出色。
作為R8g實例首發(fā)客戶之一,Honeycomb分享稱Graviton4的吞吐量改進非常明顯,相比四年前剛開始使用Graviton,每vCPU吞吐量提高了一倍多。他們準備在R8g實例系列正式發(fā)布后立即把整個工作負載遷移到Graviton4上。爆款游戲《堡壘之夜》的制作公司Epic Games評價說,基于最新Graviton4的EC2 R8g實例是基于他們測試過的最快的EC2實例,在其“最具競爭力和對延遲敏的工作負載中表現(xiàn)出色”,可以充分提高游戲服務(wù)器的性能。對SAP HANA Cloud使用R8g實例的初步測試結(jié)果顯示,與基于Graviton3的實例相比,R8g實例的分析性能可提升高達25%,事務(wù)性工作負載性能可提升高達40%。
迄今為止,只有亞馬遜云科技真正實現(xiàn)了大規(guī)模使用Arm架構(gòu)。為什么是亞馬遜云科技?正如亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞在今年中國峰會上所言:“只有在云計算的環(huán)境下,才有機會做這樣的從應用到CPU的全棧創(chuàng)新。”自研芯片不是紙上創(chuàng)新,需要工程經(jīng)驗的積累,不僅要追求高性能,而且要足夠的穩(wěn)定可靠和高度安全。用相同Arm微架構(gòu)不代表就能做出一樣性能的CPU,設(shè)計出芯片也不代表就能取得量產(chǎn)和商業(yè)上的成功。光是幾百個CPU核心互連帶來的線性度和通信延時問題,就能難倒不少芯片團隊,更別提設(shè)計Arm服務(wù)器芯片還要突破生態(tài)難關(guān)。亞馬遜云科技的研發(fā)思路是從對云客戶工作負載的深刻理解,逆向穿透到芯片設(shè)計。這種以客戶為中心的方法能讓亞馬遜云科技短期內(nèi)進行調(diào)整,以快速適應市場動態(tài)。以Graviton4為例,亞馬遜云科技首次面向?qū)嶋H應用設(shè)計CPU架構(gòu),該處理器的設(shè)計工程中從傳統(tǒng)的MicroBenchmark基準測試評價體系轉(zhuǎn)向以實際工作負載進行評價的方法。比如,優(yōu)化Cassandra數(shù)據(jù)庫、Groovy應用、nginx服務(wù)器,所需要的前端和后端CPU參數(shù)是不一樣的。龐大的客戶規(guī)模為亞馬遜云科技高筑壁壘。其遍布全球的廣泛數(shù)據(jù)中心集群,能承載Graviton系列處理器的落地。全球最大云計算業(yè)務(wù)所形成的規(guī)模效應,又能為亞馬遜云科技有效攤薄成本。持續(xù)創(chuàng)新的云服務(wù),使亞馬遜云科技能夠了解到使用最多的應用及其資源消耗模式,以此來挑選對用戶來說收益最高的技術(shù)點,進行針對性優(yōu)化,快速改進軟件和硬件堆棧甚至是CPU設(shè)計,研發(fā)出相匹配的vCPU和硬件核心。同時,亞馬遜的各條托管服務(wù)的產(chǎn)品線都使用統(tǒng)一的基礎(chǔ)設(shè)施,因此Graviton創(chuàng)新可以及時應用到所有的托管服務(wù)里。用戶通過更換計算選項,就能輕松享受到Graviton帶來的性價比提升。用戶只需關(guān)心哪款實例更能滿足需求,亞馬遜云科技負責將軟件的遷移和學習成本打下來。通過將更多的管理服務(wù)和Graviton做深度集成,從x86無縫遷移到Arm變得簡單快捷。
03.自研芯片如何影響云計算?
今天,自研芯片已經(jīng)成科技大廠的標準動作,不管是降本增效、構(gòu)建競爭優(yōu)勢,還是提高可控性、降低第三方芯片企業(yè)依賴,都是容易說服下游客戶和投資者的好故事。但在九年前,當亞馬遜云科技率先踏出自研芯片之路時,這還是個超前的探索?;厮菰朴嬎惆l(fā)展史,亞馬遜云科技在2006年發(fā)布首款EC2(彈性云計算)實例定義被視作一個歷史時刻。
隨后越來越多的企業(yè)逐漸接受云計算概念,并開始將自家應用遷移到云端。現(xiàn)在亞馬遜云科技可以在云上順利運行幾萬個節(jié)點的高性能計算集群來訓練大模型,能在云上處理高并發(fā)的實時流媒體應用,這些在當時都是很難想象的。要知道亞馬遜云科技的第一款EC2實例,主頻只有1.7GHz,網(wǎng)絡(luò)帶寬250Mbps,內(nèi)存不到2GB,磁盤是只有160GB的機械盤。
在云計算業(yè)務(wù)剛起步的幾年,亞馬遜云科技要解決很多棘手問題,特別令團隊焦慮的是:如果使用定制版Xen作為虛擬化管理程序,無論如何耗費大量時間來優(yōu)化代碼,虛擬層始終會占用主機資源,并且x86 CPU并不擅長處理網(wǎng)絡(luò)流量。直到2013年,一家以色列芯片企業(yè)Annapurna Labs走進亞馬遜云科技的視線。
經(jīng)過合作,亞馬遜云科技首次將網(wǎng)絡(luò)處理寫到硬件。驚喜的落地表現(xiàn),讓亞馬遜云科技盯上了這家出色的合作伙伴:2015年1月,亞馬遜云科技宣布收購Annapurna Labs,自此踏上自研芯片的旅程。回過頭來看,這絕對是亞馬遜云科技歷史上一筆精明的投資。就在這一交易的兩年后,亞馬遜云科技對外宣布Nitro虛擬化平臺,將安全、管理、監(jiān)控全部卸載到硬件上,將主機算力近乎100%地提供給客戶。
從此,云計算走上了業(yè)務(wù)與基礎(chǔ)設(shè)施完全物理隔離的路子,底層的虛擬化技術(shù)創(chuàng)新和上層的服務(wù)器種類發(fā)展可以并行展開。這催生了EC2實例的關(guān)鍵拐點:從2006年到2017年,亞馬遜云科技用11年從1種EC2實例做到70種;而從2017年到2023年,EC2實例驟然爆發(fā)式增長,6年從70種發(fā)展到750種,能為各類負載提供合適的計算實例。
站在Nitro成功的基石上,亞馬遜云科技發(fā)展出網(wǎng)絡(luò)芯片、服務(wù)器CPU、AI訓練和推理芯片三條產(chǎn)品線:Nitro網(wǎng)絡(luò)芯片已經(jīng)發(fā)展到第五代,持續(xù)優(yōu)化網(wǎng)絡(luò)性能、存儲性能和安全加固;Graviton已經(jīng)發(fā)布四代五款;AI推理芯片Inferentia和AI訓練芯片Trainium,通過提供更具性價比的推理和訓練實例,讓用戶有了GPU之外的AI加速選擇。
這使得亞馬遜云科技能夠保持內(nèi)部全棧創(chuàng)新的靈活性:從定制的板卡及服務(wù)器開始,到深入底層定制芯片,再到橫向擴展自研芯片版圖,亞馬遜云科技逐漸將從芯片、硬件到軟件整合協(xié)同,在為業(yè)務(wù)帶來更好成本效益和可靠性的同時,構(gòu)成獨屬于自己的核心競爭力。自研芯片與亞馬遜云科技自研的存儲服務(wù)器和高速網(wǎng)絡(luò)系統(tǒng)聯(lián)動,使得更多芯片能夠高效互連,從而真正明顯縮短計算的時間。站在這些創(chuàng)新基礎(chǔ)上,亞馬遜云科技能夠支持云計算中運行最具挑戰(zhàn)性的任務(wù)之一——人工智能與機器學習。
在近期舉行的亞馬遜云科技紐約峰會上,亞馬遜云科技宣布96%的AI/ML獨角獸已將其業(yè)務(wù)跑在亞馬遜云科技上,2024福布斯AI 50榜單中90%的企業(yè)選用亞馬遜云科技。從2023年至今,亞馬遜云科技已經(jīng)正式發(fā)布了326項生成式AI功能,同期機器學習和生成式AI服務(wù)的正式可用數(shù)量超過了其他供應商的兩倍。
廣泛的用例與深厚的技術(shù)積累總是唇齒相依。這些數(shù)量驚人的AI用例,使得亞馬遜有足夠的實踐案例來為客戶提供能取得最佳收益的選擇,而廣泛的客戶反饋又能成為其芯片設(shè)計最好的動能。芯片技術(shù)的持續(xù)迭代,將托舉起越來越高性價比的云服務(wù),推動生成式AI普惠。
04.結(jié)語:沒有哪款芯片,是云計算的唯一解
市場上有大量的芯片選擇,云基礎(chǔ)設(shè)施提供商能在如何將所有這些整合在一起方面發(fā)揮價值,從而更好實現(xiàn)從基礎(chǔ)設(shè)施到云服務(wù)的各種創(chuàng)新。
與獨立芯片企業(yè)不同的是,亞馬遜云科技自研芯片的目的不在于參與市場競爭,而在于為其客戶提供一個“萬能商店”,既提供自研芯片,又提供英特爾CPU、英偉達GPU等市面主流選擇,由客戶來根據(jù)這些芯片實例的配置文件,自行選擇最能滿足工作負載需求的產(chǎn)品組合。
Graviton的六年演進,走通了Arm服務(wù)器CPU落地的故事。Arm為亞馬遜云科技提供了靈活定制CPU的基礎(chǔ),亞馬遜云科技則推動了服務(wù)器芯片市場格局的變陣,成為Arm在數(shù)據(jù)中心市場展現(xiàn)成本和性價比優(yōu)勢的最好代言。只要Graviton還有降本增效的空間,亞馬遜云科技就可以繼續(xù)降價讓利,把規(guī)模與技術(shù)的紅利回饋給云客戶。