但在算力的源點(diǎn)——數(shù)據(jù)中心,并不是算力最強(qiáng)者才會贏到最后。
除了狂暴的計(jì)算能力之外,數(shù)據(jù)中心的供電、散熱、運(yùn)維等等成本開支,加在一起反而會成為數(shù)據(jù)中心開銷的大頭。說白了,數(shù)據(jù)中心更看重的,是「性能功耗比」。也就是說:消耗一度電,能提供多少算力。
過去十幾年,基于x86架構(gòu)的處理器在數(shù)據(jù)中心是絕對王者。今年2月,市場研究機(jī)構(gòu)Counterpoint發(fā)布了全球云服務(wù)器的相關(guān)調(diào)研,91%的市場份額仍由x86占據(jù)。
然而在近幾年,服務(wù)器市場的格局已經(jīng)發(fā)生了巨大的轉(zhuǎn)變,越來越多新的處理器架構(gòu)開始涌入數(shù)據(jù)中心市場,并在不斷挑戰(zhàn)傳統(tǒng)架構(gòu)的領(lǐng)導(dǎo)地位。
特別是說到低功耗,人們自然會想到在移動互聯(lián)網(wǎng)時代風(fēng)生水起的ARM架構(gòu)。ARM的RISC架構(gòu)有著天生的低功耗能力,智能手機(jī)和移動設(shè)備取得突破性成功后,自然也瞄準(zhǔn)了數(shù)據(jù)中心市場這個更大的蛋糕。全球知名技術(shù)市場分析與咨詢國際公司Canalys CEO史蒂夫·布雷熱(Steve Brazier)甚至大膽預(yù)測:
“2026年之前,云服務(wù)器架構(gòu)芯片的半壁江山將歸于ARM。”
隨著云服務(wù)工作負(fù)載的快速增長,數(shù)據(jù)中心基礎(chǔ)設(shè)施亟需突破「性能功耗比」的瓶頸,這也帶來了寶貴的機(jī)會。例如,2017年才創(chuàng)辦的芯片設(shè)計(jì)初創(chuàng)企業(yè)Ampere Computing(安晟培半導(dǎo)體,下文簡稱Ampere),就利用自研的云原生處理器架構(gòu)在激烈的競爭中異軍突起。五月底,Ampere推出了最多集成192個內(nèi)核的AmpereOne系列處理器,內(nèi)核數(shù)量打破行業(yè)記錄。
我詳細(xì)梳理了這家初創(chuàng)公司的技術(shù)進(jìn)階之路,就是為了回答一個問題:這家成立僅5年多的芯片公司,到底做對了什么?
我的答案很簡單:把握正確的時機(jī),用正確的技術(shù),做正確的產(chǎn)品。
x86架構(gòu),數(shù)據(jù)中心不可撼動的王?
為了更好的理解Ampere異軍突起的原因,首先應(yīng)該來看為何x86架構(gòu)統(tǒng)治了數(shù)據(jù)中心這么久。
在芯片行業(yè),一旦推出成功的服務(wù)器芯片架構(gòu),加之構(gòu)建完善的生態(tài),等同于拿到一張長期飯票,這里說的就是x86架構(gòu)。
其中,最大的受益者非英特爾莫屬。在x86架構(gòu)的數(shù)據(jù)中心的市場里,英特爾市場份額曾一度占90%以上。
早在1978年,英特爾就用x86架構(gòu)打響名堂,通過高效指令執(zhí)行、快速訪存、單核多線程能力等優(yōu)勢,狙擊RISC架構(gòu)處理器市場。隨之,從芯片、操作系統(tǒng)、開發(fā)工具、數(shù)據(jù)庫到各類服務(wù)器端的應(yīng)用軟件,x86架構(gòu)一一建立起完善的體系和生態(tài)。舉個例子,根據(jù)Linux基金會的數(shù)據(jù),英特爾是Linux操作系統(tǒng)內(nèi)核代碼的最大貢獻(xiàn)者,超過了紅帽、IBM等軟件和系統(tǒng)公司。這是因?yàn)長inux作為數(shù)據(jù)中心的重要基石,承擔(dān)了軟硬件結(jié)合的關(guān)鍵功能。因此,英特爾對Linux內(nèi)核的貢獻(xiàn),其實(shí)是幫助x86架構(gòu)更好的配合Linux,反過來也會讓更多開發(fā)者選擇x86作為底層架構(gòu)做開發(fā)。
因此,就算傳統(tǒng)x86架構(gòu)并非為云端業(yè)務(wù)設(shè)計(jì),但是依靠其客戶端在超過十幾、二十年間占據(jù)市場的積累,高度的用戶粘性也讓x86搶先預(yù)定了大量熟悉的數(shù)據(jù)中心端客戶。
根據(jù)Counterpoint在今年2月底發(fā)布的全球云服務(wù)器數(shù)據(jù),x86占據(jù)著91%的市場份額,其中AMD的市占率提升至20%,英特爾跌至71%。從數(shù)據(jù)來看,相比其他處理器架構(gòu),x86似乎仍然有著近乎統(tǒng)治級的優(yōu)勢。
但事情已經(jīng)悄悄起了變化。
機(jī)遇來臨:算力不再是唯一標(biāo)準(zhǔn)
當(dāng)算力需求不大時,基于x86的CPU已經(jīng)能夠很好的滿足應(yīng)用的需求。外加成熟的生態(tài)和基礎(chǔ)設(shè)施,x86的帝國似乎無可撼動。
從技術(shù)角度來看,CPU屬于通用芯片,它最大的優(yōu)點(diǎn)就是能做很多很多事情,但缺點(diǎn)就是雖然什么都能干、但什么都做不到最好。比如在人工智能領(lǐng)域,CPU的處理性能就遠(yuǎn)遠(yuǎn)落后于GPU。此外很多人意識到,既然人工智能這么重要,為什么不直接為它單獨(dú)設(shè)計(jì)制造一種芯片、來專門為它服務(wù)呢?結(jié)果發(fā)現(xiàn)這么想的人還不止一個,于是幾乎在同一時間,世界上出現(xiàn)了很多AI芯片公司,就連谷歌和百度這些互聯(lián)網(wǎng)公司,也紛紛下場做AI芯片了。
這些看似自然而然的進(jìn)化,背后其實(shí)有著很強(qiáng)的客觀規(guī)律。1987年,在日立半導(dǎo)體和索尼擔(dān)任高級職位的牧本次生提出,芯片的類型有規(guī)律地在“定制化”和“通用化”之間不斷交替,變化一次的周期大約為10年,這個發(fā)現(xiàn)也被稱作牧本周期。由于這個變化的過程特別像一個鐘擺,因此牧本周期也被業(yè)界稱作半導(dǎo)體行業(yè)之?dāng)[。
這個和中國古人說過的「分久必合,合久必分」其實(shí)有著異曲同工之妙。當(dāng)通用CPU架構(gòu)發(fā)展到一定階段,它必然為了通用性而承載了太多「冗余」的功能,而這些不必要的部分,會極大影響它的性能上限和功耗下限。
相比之下,如果針對某個應(yīng)用領(lǐng)域做定制優(yōu)化,就能拋掉那些不必要的負(fù)擔(dān),輕裝上陣,出奇制勝。
人工智能芯片如此,云原生處理器也如此。
當(dāng)前,數(shù)據(jù)中心發(fā)展演變出新的需求,算力固然是重要標(biāo)準(zhǔn),但能源需求、土地制約、ESG法規(guī)要求、擴(kuò)展性要求等也成為現(xiàn)代數(shù)據(jù)中心都需要考慮的重要因素。近幾年,綠色數(shù)據(jù)中心成為人們關(guān)注的重點(diǎn)。而背了太多通用性包袱的x86架構(gòu),就逐漸無法滿足云數(shù)據(jù)中心的發(fā)展需求了。
Ampere究竟“高”在哪里?
事實(shí)上,ARM幾乎壟斷智能手機(jī)芯片架構(gòu),卻在云服務(wù)器市場上難以復(fù)制奇跡,這主要在于X86成熟的產(chǎn)品和健全的生態(tài)。即便ARM早在2008年布局更廣闊的PC和筆記本電腦市場、數(shù)據(jù)中心,AMD、博通、高通、惠普等企業(yè)也做過基于ARM架構(gòu)服務(wù)器芯片的嘗試,但均未能走遠(yuǎn)。唯獨(dú)蘋果在ARM架構(gòu)上取得的突破,給眾多芯片的新貴帶來了豐富的想象空間,尤其在近幾年突飛猛進(jìn)的數(shù)據(jù)中心。
前英特爾總裁Renee James另開蹊徑,在2018年創(chuàng)立Ampere,推出業(yè)界第一個基于ARM指令集的云原生服務(wù)器微處理器架構(gòu),走出了不一樣的“云原生”道路。
云原生處理器至少需要集成三個「正確的技術(shù)」:高能效比、性能穩(wěn)定、高可擴(kuò)展。我們一個一個來看。
首先,云計(jì)算應(yīng)用往往有著大量用戶和大量應(yīng)用,這對單核可預(yù)測性能、功耗,以及內(nèi)核密度都提出了更高的要求。因此,當(dāng)過去很多廠商使用雙路服務(wù)器和超線程內(nèi)核的處理器來提供足夠的算力時,Ampere可以在單路服務(wù)器和單線程內(nèi)核的處理器上通過堆核的方式,持續(xù)提升更高的算力、更多的IO、更高的內(nèi)存,同時降低了雙路平臺的復(fù)雜程度和能耗,實(shí)現(xiàn)更好的解決方案。
第二,云原生處理器需要保證穩(wěn)定一致、可線性擴(kuò)展的性能。比如,單線程內(nèi)核無干擾(相對x86的超線程),恒定的最大主頻不降頻(相對x86的睿頻跳頻機(jī)制),從而保證性能的穩(wěn)定、而不是動態(tài)跳變。此外,處理器性能的線性增長可以帶來更高的CPU利用率。通常來說,傳統(tǒng)架構(gòu)中CPU使用率的安全水位線是50%、甚至30%,根源就是跑更多核時性能并不能明顯提升,到達(dá)安全水位時無法利用CPU剩下的內(nèi)核。相比之下,針對云原生而優(yōu)化的處理器架構(gòu)可以進(jìn)行線性擴(kuò)展,使得CPU可以將安全水位提高到70%,甚至更高。
第三,云原生處理器需要具備橫向擴(kuò)展能力。特別是在當(dāng)前,云計(jì)算軟件走向以微服務(wù)為代表的橫向擴(kuò)展架構(gòu),即從scale-up到scale-out。因此,CPU硬件架構(gòu)也需要做相應(yīng)的改變,從硬件層面更好的支撐橫向擴(kuò)展,這也是云原生處理器相比于通用處理器最大的區(qū)別。
為此,Ampere做出了三個技術(shù)選擇:
選擇1:提供更多線性擴(kuò)展的單線程內(nèi)核,而不是利用超線程等技術(shù)彌補(bǔ)物理核數(shù)少,平行吞吐性能低的問題。
選擇2:提供高性能的通用計(jì)算內(nèi)核,而不是利用額外的專用加速單元提升性能。
選擇3:利用最大化單機(jī)架性能來實(shí)現(xiàn)數(shù)據(jù)中心級別的可擴(kuò)展性,而不是依賴單核或者單CPU的scale-up。
(Ampere云原生自研內(nèi)核性能指標(biāo),來源:Ampere官網(wǎng))
采用云原生的自研核來設(shè)計(jì)CPU,可以適配不斷擴(kuò)展的云端工作負(fù)載,并可根據(jù)不同用戶的需求進(jìn)行擴(kuò)展、收縮以及遷移,能夠在不建設(shè)更多的數(shù)據(jù)中心和更多設(shè)備的情況下,最大限度地提供算力,并且也對安全性做出增強(qiáng)。
根據(jù)正確的技術(shù)路線,得到正確的產(chǎn)品就是水到渠成的事情:5月19日,Ampere官宣新一代AmpereOne系列處理器,由臺積電5nm 工藝制造,擁有192 個單線程內(nèi)核,創(chuàng)下業(yè)界最多內(nèi)核數(shù)量的紀(jì)錄,大大超過英特爾、 AMD 服務(wù)器的核心數(shù)。內(nèi)核數(shù)量的提升,意味著AmpereOne 能為云工作負(fù)載提供更高的性能、更高的可擴(kuò)展性以及更高的密度,為大型數(shù)據(jù)中心的規(guī)?;l(fā)展打下基礎(chǔ)。
此外,AmpereOne還集成了大型云優(yōu)化私有緩存,比上一代增加了8通道的 DDR5 內(nèi)存和128 通道的 PCIe Gen5接口,滿足AI、超算等高增長的云應(yīng)用需求,幫助實(shí)現(xiàn)單機(jī)架性能最大化。在AI大模型浪潮之下,AmpereOne還針對AI推理做了架構(gòu)優(yōu)化,較其他 CPU 有 2 倍以上的性能優(yōu)勢,以適應(yīng)生成式 AI 算力爆發(fā)的需求。
(Ampere處理器性能指標(biāo)總覽,來源:Ampere官網(wǎng))
通過云原生處理器,AmpereOne進(jìn)行 AI 推理,不僅能打破效率瓶頸,實(shí)現(xiàn)性能最大化,也可以解決云服務(wù)提供商的行業(yè)痛點(diǎn),大大壓縮AI 推理所產(chǎn)生的高能耗。
根據(jù)Ampere給出的數(shù)據(jù),Ampere 云原生處理器可助力性能提升3倍,同時能耗降低2.8倍。其獨(dú)特的云內(nèi)核與架構(gòu)特性能夠提供無可比擬的云性能、可擴(kuò)展性以及效率。與x86服務(wù)器CPU相比,Ampere Altra系列可用50%的能耗,提供200%的性能。
(AmpereOne的AI性能提升,來源:Ampere官網(wǎng))
隨著各地對數(shù)據(jù)中心的擴(kuò)張以及背后飆升的電力需求,Ampere充分發(fā)揮了ARM架構(gòu)的低功耗優(yōu)勢,可以解決數(shù)據(jù)中心可持續(xù)運(yùn)營的當(dāng)務(wù)之急。不僅如此,ARM的生態(tài)也在不斷提升,更好的適配越來越多的服務(wù)和應(yīng)用。Ampere首席產(chǎn)品官Jeff Wittich強(qiáng)調(diào),除性能、功耗領(lǐng)先x86芯片外,Ampere的產(chǎn)品還可在云環(huán)境下運(yùn)行所有應(yīng)用,涵蓋Web服務(wù)、數(shù)據(jù)庫和視頻編碼,AI推理等場景。
對于眾多云服務(wù)器客戶來講,不容忽視的一點(diǎn)是Ampere的“高性價比”。根據(jù)國外測評專業(yè)網(wǎng)站Phoronix的報(bào)道,Ampere的另一個主力產(chǎn)品Altra Max只需5800美元,而AMD的EPYC 7763 需要7890美元,英特爾的Xeon Platinum 8380處理器則達(dá)到8099美元。
基于性能、能效、可擴(kuò)展性、高性價比的優(yōu)勢,Ampere幫助數(shù)據(jù)中心以更少的資源滿足更多的算力需求,借助「綠色數(shù)據(jù)中心」這個新的趨勢起飛,成立5年左右就迅速收獲市場認(rèn)可。
目前,全球已經(jīng)有七家超大規(guī)模的數(shù)據(jù)中心使用Ampere產(chǎn)品,騰訊云、阿里云、京東云、微軟Azure、百度云等云計(jì)算廠商也推出了Ampere芯片的云端實(shí)例。
Ampere走強(qiáng)不設(shè)限
云服務(wù)器市場有多大,Ampere云端業(yè)務(wù)的潛力就有多強(qiáng)。
面臨巨大的算力需求、嚴(yán)格的環(huán)保要求、高昂的運(yùn)營成本壓力,數(shù)據(jù)中心越來越需要能夠幫助降本增效、提供更高能效和性能的服務(wù)器,這給Ampere帶來廣闊的空間。
“英特爾和AMD正在密切關(guān)注著Ampere,”數(shù)據(jù)中心市場情報(bào)先驅(qū)Liftr Insights的首席執(zhí)行官泰博·沙特(Tab Schadt)表示,“他們清楚,Ampere正在一步步占領(lǐng)他們在整個市場的份額。”
2021年,Ampere首次躋身世界前六的云供應(yīng)商,隨后在云市場上的勢頭一發(fā)不可收拾,在2022年11月甚至達(dá)到了同比443%的增長。
除了有節(jié)奏地上線刷爆業(yè)界內(nèi)核數(shù)量的云原生處理器,Ampere也馬不停蹄地壯大自己的生態(tài),積極與GCC、LLVM等行業(yè)組織、操作系統(tǒng)內(nèi)核、編譯器、開源固件進(jìn)行合作,確保所有產(chǎn)品的適配性和優(yōu)質(zhì)體驗(yàn)。隨著市場和客戶需求不斷增加,Ampere也在堅(jiān)定做自研核,通過更好的性能、功耗以及可擴(kuò)展性,幫助Ampere的產(chǎn)品在業(yè)內(nèi)持續(xù)領(lǐng)先。
從數(shù)據(jù)中心市場情報(bào)先驅(qū)Liftr Insights的調(diào)研發(fā)現(xiàn),在公共云領(lǐng)域,Ampere已經(jīng)從三年前的默默無聞發(fā)展到當(dāng)今將近2%的市占率。其中,微軟Azure貢獻(xiàn)最大,超過了69%,而阿里巴巴、谷歌、甲骨文、騰訊等客戶也在不斷擴(kuò)大各自的Ampere云端實(shí)例。
數(shù)據(jù)中心的可持續(xù)源于內(nèi)核。對于堅(jiān)定做云原生自研核的Ampere而言,它在云端業(yè)務(wù)“開路”的好戲才剛剛開始。
(注:本文不代表老石任職單位的觀點(diǎn)。)