加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

CPU+IPU:揭秘英特爾數(shù)據(jù)中心芯片布局

2021/09/13
849
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

8月19日,英特爾舉辦了一年一度的架構日(Intel Architecture Day 2021)。在這場兩個多小時的活動里,英特爾詳細分享了包括Alder Lake SoC, Sapphire Rapids、Xe HPG GPU、Ponte Vecchio、Mount Evans等等一系列芯片和系統(tǒng)的架構細節(jié),同時也深入介紹了包括AMX、XeSS、oneAPI指令集軟件框架的最新進展。

從2018年英特爾第一次舉辦架構日至今,這就是我每年必追的重要技術活動,因為它能從架構師的視角,帶我們深入探究這些驅動下一代技術革新的最新進展,而不是單純的進行產(chǎn)品發(fā)布,這也能極大地幫助我們提升視野,并從中看清未來技術發(fā)展的大方向。

總體來說,這次的架構日發(fā)布的11個技術內容可以分成三個大類,分別是客戶端CPU、數(shù)據(jù)中心CPU和IPU、以及橫跨客戶端和數(shù)據(jù)中心應用場景的GPU。在上篇文章中,我們聊了客戶端CPU Alder Lake、還有最新的能效核+性能核混合架構。這篇文章我們繼續(xù)來看數(shù)據(jù)中心相關的芯片架構,包括Sapphire Rapids和Mount Evans,這也是我最關注的內容。

1、數(shù)據(jù)中心芯片 – 皇冠上的寶石

關于數(shù)據(jù)中心的重要意義,在之前的文章和視頻里已經(jīng)說過太多次了,但是仍然值得再說很多次。和客戶端業(yè)務相比,數(shù)據(jù)中心業(yè)務承載著英特爾戰(zhàn)略轉型的重任,也是驅動英特爾業(yè)務進一步發(fā)展的動力之源。特別是在數(shù)據(jù)爆炸的時代,每天都會產(chǎn)生太多數(shù)據(jù),而這里面只有不到2%被進行了有效處理。這對于各家科技公司來說,既是巨大的機遇、也是嚴峻的挑戰(zhàn)。

我們可以看到,最近幾年國內外的巨頭科技公司都在紛紛往企業(yè)級業(yè)務或云端轉型。云計算相關的業(yè)務也已經(jīng)成為了亞馬遜、微軟、谷歌等互聯(lián)網(wǎng)和軟件公司的最主要的增長引擎,同時國內的科技和互聯(lián)網(wǎng)公司也在紛紛加碼云服務

同樣的,對于芯片公司來說,英特爾、AMD、英偉達等也都在全力擴展數(shù)據(jù)中心芯片的產(chǎn)品組合,其中不僅包括數(shù)據(jù)中心CPU,還有針對數(shù)據(jù)中心打造的GPU、各種專用的硬件加速單元,以及基于FPGA的加速卡等等??梢哉f,當前的數(shù)據(jù)中心芯片和硬件領域是百花齊放、百家爭鳴的狀態(tài),各種架構和技術層出不窮。

在這次英特爾架構日活動上,英特爾就發(fā)布了下一代至強可擴展處理器,代號為Sapphire Rapids,以及數(shù)據(jù)中心基礎設施處理器(IPU)Mount Evans,還有兩款基于FPGA的數(shù)據(jù)中心加速平臺。接下來我們就一起來看一下這些芯片的架構細節(jié)。

2、Sapphire Rapids:數(shù)據(jù)中心處理器的新標桿?

最近幾年,我們能很明顯地感受到英特爾提升了數(shù)據(jù)中心處理器的研發(fā)進程。在上半年,英特爾剛發(fā)布了代號為Ice Lake的第三代至強可擴展處理器。它基于英特爾10納米工藝進行打造,采用了Sunny Cove微架構,單芯片最多集成40個核心,IPC提升了20%。

而這些架構日上介紹的Sapphire Rapids,將基于Intel 7工藝制造,并會將性能再次提升到一個新的臺階。值得注意的是,這里所說的性能不僅僅指單個節(jié)點,也指多個節(jié)點結合在一起的數(shù)據(jù)中心整體性能。

Sapphire Rapids和Ice Lake最大的區(qū)別,就是它會采用多芯片封裝的結構,并且使用EMIB技術進行互聯(lián)和通信。和Ice Lake的單硅片架構相比,多芯片封裝可以大大提升系統(tǒng)的可擴展性,比如內核數(shù)量、IO、緩存和存儲單元的容量,都可以直接進行擴展,這一點也符合現(xiàn)在業(yè)界技術發(fā)展的主要趨勢。

更進一步,Sapphire Rapids里封裝的每個計算單元,也都采用了模塊化的設計方法,這個和前面介紹過的桌面級CPU Alder Lake有著類似的思路。這些模塊有三種主要的類型,分別是計算、IO和存儲。比如計算模塊就包含這次新發(fā)布的高性能核,以及針對數(shù)據(jù)中心里越來越常見的硬件加速引擎;IO模塊包含對于多種互聯(lián)協(xié)議的支持,如PCIe 5.0、UPI 2.0、以及緩存一致性標準CXL1.1;存儲模塊則包含HBM、傲騰持久內存、DDR5等等。

Sapphire Rapids采用了本次架構日上全新發(fā)布的高性能核(Golden Cove),并且針對數(shù)據(jù)中心應用做了深度優(yōu)化。比如在典型的數(shù)據(jù)中心應用里,往往有著極大的代碼量和復雜的依賴關系,此時CPU的前端就成了制約性能的主要瓶頸,所以性能核的前端就對此進行了重新設計。

現(xiàn)代CPU的設計思路是通用性能提升和特定場景優(yōu)化的結合。Sapphire Rapids就進一步提升了針對人工智能應用的專用優(yōu)化,比如采用了上篇文章介紹過的先進矩陣擴展技術AMX,就能加速矩陣運算、特別是矩陣乘法的性能。根據(jù)英特爾的數(shù)據(jù),AMX可以實現(xiàn)每周期2048個INT8運算和1024個bfloat16運算,這比基于AVX-512的版本性能提升了7倍以上。

此外,Sapphire Rapids還引入了名為加速器接口架構指令集(Accelerator interfacing Architecture – AiA)的技術,可以在用戶態(tài)對硬件加速器實現(xiàn)更有效的調度、同步和信號傳遞,而無需經(jīng)過內核態(tài)。這個思路非常類似DPDK這個專門進行高速數(shù)據(jù)包處理的軟件框架,它也是跳過了內核態(tài),直接在用戶態(tài)進行數(shù)據(jù)包處理,從而盡可能避免不必要的數(shù)據(jù)搬運和中斷帶來的性能損失。

除了指令集的優(yōu)化外,Sapphire Rapids還采用了多種針對數(shù)據(jù)中心特定應用的硬件加速單元。比如針對數(shù)據(jù)流處理的加速引擎(Data Stream Acceleration - DSA),可以將數(shù)據(jù)中心常見的OvS(Open virtual Switch)應用的CPU占用率降低40%,并且將性能提升2.5倍。

再比如針對加密和加解壓縮的加速引擎,可以從CPU里卸載這類應用,從而將CPU的使用率降低50倍,并且將壓縮速度提升22倍。如果使用偏重通用計算的性能核完成這些功能并且達到相同的性能,則需要超過1000個內核才行,而這也正是這些硬件加速單元存在的最大意義。

Sapphire Rapids無論是從芯片的封裝、工藝,還是計算存儲互聯(lián)的微架構,都進行了大幅升級和改進。作為英特爾下一代的至強可擴展處理器,Sapphire Rapids將是英特爾數(shù)據(jù)中心業(yè)務的重要基石,我們也會對它的實際表現(xiàn)拭目以待。 

3、云數(shù)據(jù)中心的架構變革

除了數(shù)據(jù)中心CPU的架構升級之外,數(shù)據(jù)中心本身的架構也在不斷的變化著,我們不妨簡單回顧一下數(shù)據(jù)中心基本架構的發(fā)展歷程。

傳統(tǒng)的數(shù)據(jù)中心架構都是以CPU為主,并且通過傳統(tǒng)的網(wǎng)卡與數(shù)據(jù)中心網(wǎng)絡相連接。CPU周圍,或者說單臺服務器里也會掛載硬盤、SSD之類的存儲設備。隨著數(shù)據(jù)中心規(guī)模的不斷擴展,網(wǎng)絡速度不斷提升,從五年前的10GbE,逐漸發(fā)展到2x25GbE、2x50GbE,再到目前正在發(fā)展中的2x100GbE。

除了網(wǎng)絡之外,計算和存儲的應用也在變得越來越復雜,比如前面提到的虛擬交換OvS、諸如Virtio這樣的虛擬IO協(xié)議,還有RDMA、NVMe這樣的傳輸層和存儲協(xié)議等等,都正在漸漸成為數(shù)據(jù)中心的主流技術,它們也構成了當前數(shù)據(jù)中心的主要基礎設施架構。

傳統(tǒng)數(shù)據(jù)中心架構

當這些技術剛剛出現(xiàn)的時候,都是使用軟件+CPU的方式來執(zhí)行其功能或服務的。但是慢慢的人們也發(fā)現(xiàn),單純使用CPU來執(zhí)行這些應用不是不行,但是卻有很多問題。最主要的問題有兩個,一個是性能,另外一個就是經(jīng)濟。

從性能的角度來看,CPU設計的主要目的是通用計算,特別是和控制相關的應用。相比之下,網(wǎng)絡和存儲的應用追求的是低延時、高吞吐量,這些并不是傳統(tǒng)CPU擅長的領域。

所以為了解決這個問題,人們一方面在不斷優(yōu)化數(shù)據(jù)中心CPU對這些應用的支持,比如前面介紹的Sapphire Rapids里對高吞吐量應用的優(yōu)化,并且提出了一些專用的軟件框架,比如DPDK和SPDK,用于加速對網(wǎng)絡數(shù)據(jù)包和存儲應用的處理。另一方面,業(yè)界也直接引入了諸如FPGA這種更靈活、可定制的硬件加速單元,來直接卸載和加速這些CPU不擅長的應用。

另外一個同等重要的問題,就是經(jīng)濟方面的考慮。由于CPU的內核資源有限,一旦它們被用來執(zhí)行這些數(shù)據(jù)中心基礎設施應用,就無法拿來承載更多客戶應用了。對于很多云服務提供商來說這顯然是非常不合算的,因為他們的主要盈利模式就是靠出租CPU給客戶、并且以CPU內核數(shù)量計費,而客戶肯定不想為自己沒有使用的內核付錢。所以這些云服務提供商就格外期待能將更多的CPU內核解放出來,再賣給客戶。

這兩方面的考慮,就奠定了數(shù)據(jù)中心基礎設施處理器IPU的應用價值。關于IPU這個名字,很多公司也有不同的叫法,這個其實并不重要。重要的是其實并不是某一個芯片,而是指代一類芯片和硬件產(chǎn)品。

比如這次架構日英特爾推出的代號為Mount Evans的ASIC IPU、以及基于FPGA的Oak Springs Canyon及Arrow Creek,都是廣義上IPU的一種。它們的主要作用,都是用來進行數(shù)據(jù)中心基礎設施應用或服務的卸載和加速,釋放寶貴的CPU內核資源,簡化數(shù)據(jù)中心架構設計,同時能夠有效把云服務基礎設施應用以及各個租戶自己的應用區(qū)隔開來,在提升性能的同時增加安全性和可靠性。

接下來我們就繼續(xù)深入看一下這次架構日披露的三款IPU。

4、英特爾首個ASIC IPU   Mount Evans

放眼目前整個數(shù)據(jù)中心加速器市場,主要有兩種實現(xiàn)形式,一個種基于FPGA,這種占目前方案的大多數(shù),另外一種就是基于ASIC、也就是專用芯片的方案,而這次發(fā)布的Mount Evans就屬于后者。

作為英特爾首款ASIC IPU,Mount Evans的設計目標非常明確,就是全力優(yōu)化性能和功耗,同時保證一定程度的可編程性。從芯片的架構圖來看,這一思路也體現(xiàn)得非常明顯。

Mount Evans的芯片架構分成兩個主要部分,左側主要負責網(wǎng)絡和存儲應用的加速,右側負責計算和控制??梢钥吹剑懊嫣岬降哪切?shù)據(jù)中心基礎設施功能,包括RDMA、NVMe、數(shù)據(jù)包處理、服務質量控制、流量整形、還有像IPSec這樣的安全性應用等等,Mount Evans都有專門的硬件加速單元。此外它還支持200GbE、16通道PCIe 4.0,并支持SR-IOV這些常見的虛擬化功能。

更讓我感興趣的是Mount Evans的可編程性。它使用了高達16個ARM Neoverse N1內核,除了支持DPDK和SPDK這些高性能編程框架之外,還支持P4語言對數(shù)據(jù)面進行編程,這個是我一直期望看到的集成創(chuàng)新。

P4語言是Barefoot公司創(chuàng)始人Nick McKeown在斯坦福與普林斯頓大學、英特爾、谷歌、微軟等公司聯(lián)合設計的新型編程語言,專門用來對網(wǎng)絡交換的數(shù)據(jù)面進行編程。2019年,英特爾收購了Barefoot公司,今年Nick McKeown教授也從斯坦福正式加入英特爾,負責領導網(wǎng)絡和邊緣計算部門。

P4語言在過去幾年里一直是網(wǎng)絡交換和SDN領域非常火的一大方向,很多公司都在自家的網(wǎng)絡產(chǎn)品里加入了對P4語言的支持。所以這次Mount Evans支持P4也算是眾望所歸。

5、基于Agilex FPGA的IPU平臺

本次架構日還發(fā)布了兩個基于Agilex FPGA的IPU板卡。一個是針對云服務提供商設計的Oak Springs Canyon。它是目前已經(jīng)出貨的基于Stratix10 FPGA的IPU – Big Springs Canyon的下一代產(chǎn)品,客戶包括了微軟、百度、京東、VMware等云計算領域的關鍵玩家們。和Mount Evans類似,它也支持2x100GbE、PCIe 4.0x16接口,可以用來加速OVS、NVMe、加解密等等這些數(shù)據(jù)中心基礎設施應用。

Oak Springs Canyon在板卡上還集成了一個Xeon-D CPU,和基于ARM的IPU相比,可以提供原生x86編程模型的支持,也就是可以把一些原本在服務器至強CPU里運行的程序,特別是對性能要求不太苛刻的控制應用,直接卸載到這個Xeon-D里執(zhí)行,而無需進行程序改寫。

另外一個FPGA IPU代號為Arrow Creek,它是針對電信網(wǎng)絡數(shù)據(jù)中心設計的加速產(chǎn)品,可以看出它是個全高半長的PCIe加速卡,使用被動散熱的方式,主要用來加速通信網(wǎng)絡的一些常見的基礎設施功能,特別是虛擬網(wǎng)絡功能,比如交換、路由、防火墻等等。這些都是網(wǎng)絡功能虛擬化場景里的重要功能。

小結

數(shù)據(jù)中心架構的變革,既離不開數(shù)據(jù)中心CPU的不斷進化,也離不開整體架構設計思路的更新?lián)Q代。至少在目前,高性能CPU+高性能硬件加速單元這種組合,仍是現(xiàn)代數(shù)據(jù)中心的主要架構思路。包括Sapphire Rapids、Mount Evans,還有基于FPGA的加速卡IPU,都是對這種設計思路很好的體現(xiàn)。

在下篇文章中,我會繼續(xù)解讀英特爾2021架構日發(fā)布的GPU芯片和軟件技術,包括Xe HPG、XeSS,還有壓軸大戲 – 英特爾歷史上開發(fā)的最復雜芯片,集成千億晶體管的Ponte Vecchio,謝謝關注。

(注:本文僅代表作者個人觀點,與任職單位無關。)

英特爾

英特爾

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜

微信公眾號“老石談芯”主理人,博士畢業(yè)于倫敦帝國理工大學電子工程系,現(xiàn)任某知名半導體公司高級FPGA研發(fā)工程師,從事基于FPGA的數(shù)據(jù)中心網(wǎng)絡加速、網(wǎng)絡功能虛擬化、高速有線網(wǎng)絡通信等領域的研發(fā)和創(chuàng)新工作。曾經(jīng)針對FPGA、高性能與可重構計算等技術在學術界頂級會議和期刊上發(fā)表過多篇研究論文。