策劃|平頭哥半導(dǎo)體
媒體合作及撰稿|eefocus與非網(wǎng)
以技術(shù)驅(qū)動創(chuàng)新,以芯力量擁抱數(shù)智未來?!缎臼隆吩L談對話科技創(chuàng)新者、引領(lǐng)者,探索創(chuàng)芯之路,共建硬核算力,賦能科技創(chuàng)新。
本期《芯事》人物:張瓅玶,阿里巴巴技術(shù)風(fēng)險與效能部負(fù)責(zé)人
本期芯事訪談嘉賓為阿里巴巴技術(shù)風(fēng)險與效能部負(fù)責(zé)人張瓅玶。技術(shù)風(fēng)險與效能部承擔(dān)阿里集團內(nèi)部業(yè)務(wù)的基礎(chǔ)技術(shù)平臺及研發(fā)基礎(chǔ)設(shè)施建設(shè),致力于通過容器技術(shù)管理調(diào)度CPU、存儲、大數(shù)據(jù)等計算資源,滿足業(yè)務(wù)發(fā)展、研發(fā)設(shè)計所需安全穩(wěn)定高效的算力需求。張瓅玶將從“計算需求驅(qū)動數(shù)據(jù)中心的三次變革“、“圍繞數(shù)據(jù)中心阿里在做什么”、“異構(gòu)時代倚天710扮演關(guān)鍵角色”、“未來變革還在繼續(xù)-AI加速重塑軟硬件格局“等幾個篇章分享其真知灼見。
數(shù)據(jù)中心算力的演變與驅(qū)動力
在過去的十年中,數(shù)據(jù)中心的算力發(fā)展經(jīng)歷了顯著的演變,這一變化主要受到兩大因素的推動:移動互聯(lián)網(wǎng)興起帶來的用戶數(shù)據(jù)爆炸,以及AI技術(shù)的引入和大規(guī)模應(yīng)用。這一時期,我們見證了從傳統(tǒng)的計算需求到以數(shù)據(jù)為中心的計算需求的轉(zhuǎn)變。
隨著移動互聯(lián)網(wǎng)的迅速發(fā)展,類似于淘寶這樣的頭部應(yīng)用的用戶數(shù)量開始從百萬級迅速增長到億級,這種規(guī)模的增長對數(shù)據(jù)中心的算力提出了前所未有的挑戰(zhàn)。緊隨用戶增長而來的是海量的用戶數(shù)據(jù)的出現(xiàn)。通過這些數(shù)據(jù),企業(yè)可以為消費者提供更加精準(zhǔn)和個性化的服務(wù),比如個性化推薦。伴隨著大數(shù)據(jù)時代的來臨,也意味著對數(shù)據(jù)存儲、處理和分析的需求急劇增加。數(shù)據(jù)的增長速度遠(yuǎn)遠(yuǎn)超過了用戶數(shù)量的增長,從而導(dǎo)致數(shù)據(jù)中心對算力的需求呈現(xiàn)指數(shù)級增長。
AI的引入和大規(guī)模應(yīng)用成為了過去十年數(shù)據(jù)中心發(fā)展的又一重要里程碑。隨著移動互聯(lián)網(wǎng)應(yīng)用對個性化服務(wù)的需求越來越高,比如基于AI技術(shù)的內(nèi)容定制、個性化廣告推送等,又增加了新的計算資源需求。AI模型的訓(xùn)練和推理需要巨大的算力支持,特別是近年來大型語言模型和深度學(xué)習(xí)模型的興起,對計算資源的需求更是達到了前所未有的水平。這種需求的增長速度遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)計算任務(wù)的需求,可能是過去的十倍甚至百倍。
在這兩大因素推動下,數(shù)據(jù)中心的發(fā)展不僅僅是硬件規(guī)模的擴張,更重要的是計算技術(shù)的革新。云計算的興起、大數(shù)據(jù)技術(shù)的發(fā)展、AI的廣泛應(yīng)用,這些都深刻地改變了數(shù)據(jù)中心的運行方式和計算模式。數(shù)據(jù)中心從僅僅是存儲和計算的設(shè)施,變成了智能處理和分析數(shù)據(jù)的強大引擎。在這種背景下,大型互聯(lián)網(wǎng)公司如阿里巴巴在數(shù)據(jù)中心的建設(shè)和管理上做出了重大調(diào)整。阿里巴巴從最初的幾萬臺服務(wù)器迅速擴展到幾十萬臺。這種規(guī)模的擴張不僅僅是數(shù)量上的增加,更體現(xiàn)在計算技術(shù)的進步。
計算架構(gòu)的變革和挑戰(zhàn)
隨著數(shù)據(jù)中心的不斷發(fā)展,計算架構(gòu)也開始不斷演進。最初,服務(wù)器架構(gòu)以CPU為核心,主要依靠其處理能力來支撐應(yīng)用需求。這種以單一設(shè)備為中心的架構(gòu)并非始于互聯(lián)網(wǎng)時代,而是繼承自早期計算時代,當(dāng)時計算資源主要依靠單個設(shè)備(如小型機和大型機)的強大能力,采用scale-up架構(gòu)。
但隨著互聯(lián)網(wǎng)的興起和應(yīng)用需求的爆炸性增長,這種以單一強大設(shè)備為中心的架構(gòu)逐漸顯得不夠靈活和高效。互聯(lián)網(wǎng)的發(fā)展推動了分布式計算架構(gòu)的興起。這種架構(gòu)通過將大量廉價、可復(fù)制的商用CPU服務(wù)器組合起來,形成龐大的集群,以處理海量數(shù)據(jù)和復(fù)雜計算任務(wù)。這代表了基礎(chǔ)系統(tǒng)技術(shù)領(lǐng)域的一次重大突破,從而使得能夠通過大規(guī)模集群以較低成本處理日益增長的數(shù)據(jù)和計算需求成為可能。
然而,大數(shù)據(jù)的出現(xiàn)對傳統(tǒng)的橫向擴展服務(wù)器架構(gòu)又提出了新的挑戰(zhàn)。大數(shù)據(jù)的特點在于涉及的數(shù)據(jù)量巨大且計算密度高。為了處理這些數(shù)據(jù),需要大量的存儲空間和更高的計算能力。這種需求催生了計算存儲分離的架構(gòu)模式,其中大型存儲集群用于處理海量數(shù)據(jù),而靈活且可擴展的計算資源用于執(zhí)行復(fù)雜的數(shù)據(jù)處理任務(wù)。
這種架構(gòu)的出現(xiàn),標(biāo)志著從集中式計算向分布式計算的轉(zhuǎn)變。在大數(shù)據(jù)時代,數(shù)據(jù)中心內(nèi)部的CPU利用率通常很低。為了提高效率,很多公司開始采用混合部署技術(shù),將在線計算和大數(shù)據(jù)處理結(jié)合起來,以提高CPU的使用效率。據(jù)阿里巴巴技術(shù)風(fēng)險與效能部負(fù)責(zé)人張瓅玶介紹,目前阿里巴巴CPU利用率已達業(yè)界領(lǐng)先水平,相比過去實現(xiàn)大幅提升,從而降低了成本,提高了經(jīng)濟效益。
由于摩爾定律的失效,CPU的計算能力增長已經(jīng)放緩,需要采用專用的計算設(shè)備來處理這些高密度的計算任務(wù),包括并行計算以及其他類型的專用硬件,如TPU等,都在特定的場景下展現(xiàn)出優(yōu)異的性能。這些新型硬件的出現(xiàn),進一步推動了計算架構(gòu)向更加多樣化和專用化的方向發(fā)展,反過來計算架構(gòu)的發(fā)展也反映了技術(shù)領(lǐng)域的不斷創(chuàng)新和進步。
倚天710成為一種選擇
除了上面提到的定制化架構(gòu)的興起,張瓅玶也提到,隨著大數(shù)據(jù)時代的到來,面對特定工作負(fù)載需求的增長,計算架構(gòu)中的CPU從傳統(tǒng)的x86處理器向基于Arm的處理器的轉(zhuǎn)變已經(jīng)越來越明顯。
Arm架構(gòu)以其低功耗和高效設(shè)計著稱,與基于復(fù)雜指令集計算(CISC)架構(gòu)的x86 CPU不同,Arm CPU能更快、更有效地執(zhí)行計算任務(wù)。近年來,AI大模型的快速發(fā)展在科技產(chǎn)業(yè)中引起重視,面臨著內(nèi)存帶寬等技術(shù)挑戰(zhàn),也要求采用新的系統(tǒng)架構(gòu)和提升內(nèi)存一致性。靈活的系統(tǒng)架構(gòu)和強大的生態(tài)系統(tǒng)對于支持AI大模型的演進至關(guān)重要。
在此背景下,Arm架構(gòu)的處理器,因其低功耗優(yōu)勢,已成為數(shù)據(jù)中心和高性能計算(HPC)領(lǐng)域的節(jié)能解決方案。領(lǐng)先的云服務(wù)提供商如微軟Azure、亞馬遜AWS、谷歌和阿里巴巴已開始在其云計算中采用基于Arm的處理器。不管是為了降低成本還是為了滿足特殊需求,各大云計算巨頭都開始定制芯片,以應(yīng)對不斷增長的數(shù)據(jù)處理需求。
平頭哥自研芯片倚天710是專為云設(shè)計的第一款CPU芯片,采用Armv9架構(gòu),擁有128核心、2.75GHz主頻。倚天710在性能和能效比上實現(xiàn)了雙重突破,性能超出行業(yè)標(biāo)桿20%,能效比提高50%以上。在2022年云棲大會上,阿里云宣布其自研 CPU 倚天 710云實例已大規(guī)模應(yīng)用,這也是中國首個云上大規(guī)模應(yīng)用的自研 CPU。
倚天710云實例針對云場景研發(fā),同時兼顧了性能與易用性。經(jīng)過業(yè)務(wù)驗證,以云的形式服務(wù)阿里巴巴核心業(yè)務(wù)和多家知名互聯(lián)網(wǎng)科技公司,并覆蓋電商、生命科學(xué)、交通物流及游戲等領(lǐng)域。
張瓅玶介紹,倚天710在性能、應(yīng)用情況、服務(wù)器運行穩(wěn)定性和可靠性方面表現(xiàn)出色,在高CPU利用率場景下表現(xiàn)格外優(yōu)越,尤其是在128個物理核的特性下,能夠減少核間干擾,提高性能。搭載倚天710的服務(wù)器已在阿里巴巴在線規(guī)模應(yīng)用中運行兩年多,廣泛應(yīng)用于各種業(yè)務(wù)場景,如數(shù)據(jù)庫存儲、在線電商計算和離線大數(shù)據(jù)處理等。
張瓅玶對倚天710在軟件生態(tài)、成本優(yōu)勢、單核性能等方面的未來發(fā)展持樂觀態(tài)度,充分肯定其在性價比和性能方面相較于其他競品的競爭力。2023年,阿里巴巴技術(shù)風(fēng)險與效能部管理的新增服務(wù)器中超過一半采用Arm架構(gòu)也是對倚天710優(yōu)異性能表現(xiàn)的一種肯定。
從計算需求出發(fā),聚焦解決未來技術(shù)瓶頸
未來,AI的發(fā)展將導(dǎo)致數(shù)據(jù)中心架構(gòu)變得更加復(fù)雜,隨著個人化AI模型的需求增加,對算力的需求將達到前所未有的水平,這將推動數(shù)據(jù)中心架構(gòu)的持續(xù)演進和定制化。
除了計算架構(gòu)越來越復(fù)雜,我們看到連接方案也開始定制化設(shè)計。例如,NVLink的出現(xiàn)就是為了解決PCIe和以太網(wǎng)無法滿足連接速度需求的問題。隨著算力需求的進一步增加,可能會出現(xiàn)更多此類定制連接方案。與此同時,傳統(tǒng)架構(gòu)也不能滿足對內(nèi)存訪問速度的需求,促使了新型技術(shù)演進,以滿足更高性能需求。CXL(Compute Express Link)架構(gòu)的出現(xiàn)就是對傳統(tǒng)內(nèi)存訪問模式的一種挑戰(zhàn)。隨著特定領(lǐng)域架構(gòu)(DSA)的出現(xiàn),對內(nèi)存訪問速度的需求進一步提升。這導(dǎo)致了傳統(tǒng)的內(nèi)存和存儲方案無法滿足新的性能要求,促使了更復(fù)雜的技術(shù),如3D堆疊技術(shù)的發(fā)展。這些技術(shù)的發(fā)展意味著可以將內(nèi)存直接集成到CPU或者其他處理單元中,這一舉措突破了多年來沿用的設(shè)計模式。
同時,越來越復(fù)雜的計算架構(gòu),也帶來了幾個不同的關(guān)鍵影響:
首先,隨著越來越多特定功能計算芯片的涌現(xiàn),軟件開發(fā)者需要為這些芯片編寫專門的程序,這比以往僅為CPU編寫軟件要復(fù)雜得多。在AI時代,除了傳統(tǒng)的CPU,開發(fā)者還需要為并行計算等多種處理器編寫程序,以實現(xiàn)復(fù)雜的計算任務(wù)。
此外,對于云計算和集群管理而言,這種變化帶來了極大的挑戰(zhàn)。云計算基于將數(shù)據(jù)中心視為單一計算機的理念,這要求集群具有均勻、可調(diào)度和可管理的特性。然而,隨著更多垂直化、緊耦合的架構(gòu)的出現(xiàn),彈性和水平擴展能力作為云計算的生命線,正在面臨前所未有的挑戰(zhàn)。
最后,硬件和軟件架構(gòu)的變化不僅會影響傳統(tǒng)的計算模式,還可能對現(xiàn)有的硬件制造商產(chǎn)生沖擊。這種變化不僅影響了像Intel和AMD這樣的傳統(tǒng)制造商,且整個以CPU水平擴展為基礎(chǔ)的計算架構(gòu)相關(guān)的通信、存儲等硬件制造商都會受此沖擊。
一言以蔽之,未來的計算架構(gòu)將變得更加復(fù)雜,帶動硬件和軟件技術(shù)都將出現(xiàn)一輪動態(tài)變化,從而出現(xiàn)更多樣化的設(shè)備和芯片,以及針對不同領(lǐng)域的垂直整合方案。在張瓅玶看來,這種走向更復(fù)雜架構(gòu)的趨勢雖然有出于為滿足日益增長的計算需求的無奈,但也代表了行業(yè)在向著更高效、更專業(yè)的方向發(fā)展。