国产人免费人成成视频,影音先锋av成人资源站在线播放

8月19日，英特爾舉辦了一年一度的架構日（Intel Architecture Day 2021）。在這場兩個多小時的活動里，英特爾詳細分享了包括Alder Lake SoC, Sapphire Rapids、Xe HPG GPU、Ponte Vecchio、Mount Evans等等一系列芯片和系統(tǒng)的架構細節(jié)，同時也深入介紹了包括AMX、XeSS、oneAPI等指令集和軟件框架的最新進展。

從2018年英特爾第一次舉辦架構日至今，這就是我每年必追的重要技術活動，因為它能從架構師的視角，帶我們深入探究這些驅動下一代技術革新的最新進展，而不是單純的進行產(chǎn)品發(fā)布，這也能極大地幫助我們提升視野，并從中看清未來技術發(fā)展的大方向。

總體來說，這次的架構日發(fā)布的11個技術內容可以分成三個大類，分別是客戶端CPU、數(shù)據(jù)中心CPU和IPU、以及橫跨客戶端和數(shù)據(jù)中心應用場景的GPU。在上篇文章中，我們聊了客戶端CPU Alder Lake、還有最新的能效核+性能核混合架構。這篇文章我們繼續(xù)來看數(shù)據(jù)中心相關的芯片架構，包括Sapphire Rapids和Mount Evans，這也是我最關注的內容。

1、數(shù)據(jù)中心芯片 – 皇冠上的寶石

關于數(shù)據(jù)中心的重要意義，在之前的文章和視頻里已經(jīng)說過太多次了，但是仍然值得再說很多次。和客戶端業(yè)務相比，數(shù)據(jù)中心業(yè)務承載著英特爾戰(zhàn)略轉型的重任，也是驅動英特爾業(yè)務進一步發(fā)展的動力之源。特別是在數(shù)據(jù)爆炸的時代，每天都會產(chǎn)生太多數(shù)據(jù)，而這里面只有不到2%被進行了有效處理。這對于各家科技公司來說，既是巨大的機遇、也是嚴峻的挑戰(zhàn)。

我們可以看到，最近幾年國內外的巨頭科技公司都在紛紛往企業(yè)級業(yè)務或云端轉型。云計算相關的業(yè)務也已經(jīng)成為了亞馬遜、微軟、谷歌等互聯(lián)網(wǎng)和軟件公司的最主要的增長引擎，同時國內的科技和互聯(lián)網(wǎng)公司也在紛紛加碼云服務。

同樣的，對于芯片公司來說，英特爾、AMD、英偉達等也都在全力擴展數(shù)據(jù)中心芯片的產(chǎn)品組合，其中不僅包括數(shù)據(jù)中心CPU，還有針對數(shù)據(jù)中心打造的GPU、各種專用的硬件加速單元，以及基于FPGA的加速卡等等?？梢哉f，當前的數(shù)據(jù)中心芯片和硬件領域是百花齊放、百家爭鳴的狀態(tài)，各種架構和技術層出不窮。

在這次英特爾架構日活動上，英特爾就發(fā)布了下一代至強可擴展處理器，代號為Sapphire Rapids，以及數(shù)據(jù)中心基礎設施處理器（IPU）Mount Evans，還有兩款基于FPGA的數(shù)據(jù)中心加速平臺。接下來我們就一起來看一下這些芯片的架構細節(jié)。

2、Sapphire Rapids：數(shù)據(jù)中心處理器的新標桿？

最近幾年，我們能很明顯地感受到英特爾提升了數(shù)據(jù)中心處理器的研發(fā)進程。在上半年，英特爾剛發(fā)布了代號為Ice Lake的第三代至強可擴展處理器。它基于英特爾10納米工藝進行打造，采用了Sunny Cove微架構，單芯片最多集成40個核心，IPC提升了20%。

而這些架構日上介紹的Sapphire Rapids，將基于Intel 7工藝制造，并會將性能再次提升到一個新的臺階。值得注意的是，這里所說的性能不僅僅指單個節(jié)點，也指多個節(jié)點結合在一起的數(shù)據(jù)中心整體性能。

Sapphire Rapids和Ice Lake最大的區(qū)別，就是它會采用多芯片封裝的結構，并且使用EMIB技術進行互聯(lián)和通信。和Ice Lake的單硅片架構相比，多芯片封裝可以大大提升系統(tǒng)的可擴展性，比如內核數(shù)量、IO、緩存和存儲單元的容量，都可以直接進行擴展，這一點也符合現(xiàn)在業(yè)界技術發(fā)展的主要趨勢。

更進一步，Sapphire Rapids里封裝的每個計算單元，也都采用了模塊化的設計方法，這個和前面介紹過的桌面級CPU Alder Lake有著類似的思路。這些模塊有三種主要的類型，分別是計算、IO和存儲。比如計算模塊就包含這次新發(fā)布的高性能核，以及針對數(shù)據(jù)中心里越來越常見的硬件加速引擎；IO模塊包含對于多種互聯(lián)協(xié)議的支持，如PCIe 5.0、UPI 2.0、以及緩存一致性標準CXL1.1；存儲模塊則包含HBM、傲騰持久內存、DDR5等等。

Sapphire Rapids采用了本次架構日上全新發(fā)布的高性能核（Golden Cove），并且針對數(shù)據(jù)中心應用做了深度優(yōu)化。比如在典型的數(shù)據(jù)中心應用里，往往有著極大的代碼量和復雜的依賴關系，此時CPU的前端就成了制約性能的主要瓶頸，所以性能核的前端就對此進行了重新設計。

現(xiàn)代CPU的設計思路是通用性能提升和特定場景優(yōu)化的結合。Sapphire Rapids就進一步提升了針對人工智能應用的專用優(yōu)化，比如采用了上篇文章介紹過的先進矩陣擴展技術AMX，就能加速矩陣運算、特別是矩陣乘法的性能。根據(jù)英特爾的數(shù)據(jù)，AMX可以實現(xiàn)每周期2048個INT8運算和1024個bfloat16運算，這比基于AVX-512的版本性能提升了7倍以上。

此外，Sapphire Rapids還引入了名為加速器接口架構指令集（Accelerator interfacing Architecture – AiA）的技術，可以在用戶態(tài)對硬件加速器實現(xiàn)更有效的調度、同步和信號傳遞，而無需經(jīng)過內核態(tài)。這個思路非常類似DPDK這個專門進行高速數(shù)據(jù)包處理的軟件框架，它也是跳過了內核態(tài)，直接在用戶態(tài)進行數(shù)據(jù)包處理，從而盡可能避免不必要的數(shù)據(jù)搬運和中斷帶來的性能損失。

除了指令集的優(yōu)化外，Sapphire Rapids還采用了多種針對數(shù)據(jù)中心特定應用的硬件加速單元。比如針對數(shù)據(jù)流處理的加速引擎（Data Stream Acceleration - DSA），可以將數(shù)據(jù)中心常見的OvS（Open virtual Switch）應用的CPU占用率降低40%，并且將性能提升2.5倍。

再比如針對加密和加解壓縮的加速引擎，可以從CPU里卸載這類應用，從而將CPU的使用率降低50倍，并且將壓縮速度提升22倍。如果使用偏重通用計算的性能核完成這些功能并且達到相同的性能，則需要超過1000個內核才行，而這也正是這些硬件加速單元存在的最大意義。

Sapphire Rapids無論是從芯片的封裝、工藝，還是計算存儲互聯(lián)的微架構，都進行了大幅升級和改進。作為英特爾下一代的至強可擴展處理器，Sapphire Rapids將是英特爾數(shù)據(jù)中心業(yè)務的重要基石，我們也會對它的實際表現(xiàn)拭目以待。

3、云數(shù)據(jù)中心的架構變革

除了數(shù)據(jù)中心CPU的架構升級之外，數(shù)據(jù)中心本身的架構也在不斷的變化著，我們不妨簡單回顧一下數(shù)據(jù)中心基本架構的發(fā)展歷程。

傳統(tǒng)的數(shù)據(jù)中心架構都是以CPU為主，并且通過傳統(tǒng)的網(wǎng)卡與數(shù)據(jù)中心網(wǎng)絡相連接。CPU周圍，或者說單臺服務器里也會掛載硬盤、SSD之類的存儲設備。隨著數(shù)據(jù)中心規(guī)模的不斷擴展，網(wǎng)絡速度不斷提升，從五年前的10GbE，逐漸發(fā)展到2x25GbE、2x50GbE，再到目前正在發(fā)展中的2x100GbE。

除了網(wǎng)絡之外，計算和存儲的應用也在變得越來越復雜，比如前面提到的虛擬交換OvS、諸如Virtio這樣的虛擬IO協(xié)議，還有RDMA、NVMe這樣的傳輸層和存儲協(xié)議等等，都正在漸漸成為數(shù)據(jù)中心的主流技術，它們也構成了當前數(shù)據(jù)中心的主要基礎設施架構。

傳統(tǒng)數(shù)據(jù)中心架構

當這些技術剛剛出現(xiàn)的時候，都是使用軟件+CPU的方式來執(zhí)行其功能或服務的。但是慢慢的人們也發(fā)現(xiàn)，單純使用CPU來執(zhí)行這些應用不是不行，但是卻有很多問題。最主要的問題有兩個，一個是性能，另外一個就是經(jīng)濟。

從性能的角度來看，CPU設計的主要目的是通用計算，特別是和控制相關的應用。相比之下，網(wǎng)絡和存儲的應用追求的是低延時、高吞吐量，這些并不是傳統(tǒng)CPU擅長的領域。

所以為了解決這個問題，人們一方面在不斷優(yōu)化數(shù)據(jù)中心CPU對這些應用的支持，比如前面介紹的Sapphire Rapids里對高吞吐量應用的優(yōu)化，并且提出了一些專用的軟件框架，比如DPDK和SPDK，用于加速對網(wǎng)絡數(shù)據(jù)包和存儲應用的處理。另一方面，業(yè)界也直接引入了諸如FPGA這種更靈活、可定制的硬件加速單元，來直接卸載和加速這些CPU不擅長的應用。

另外一個同等重要的問題，就是經(jīng)濟方面的考慮。由于CPU的內核資源有限，一旦它們被用來執(zhí)行這些數(shù)據(jù)中心基礎設施應用，就無法拿來承載更多客戶應用了。對于很多云服務提供商來說這顯然是非常不合算的，因為他們的主要盈利模式就是靠出租CPU給客戶、并且以CPU內核數(shù)量計費，而客戶肯定不想為自己沒有使用的內核付錢。所以這些云服務提供商就格外期待能將更多的CPU內核解放出來，再賣給客戶。

這兩方面的考慮，就奠定了數(shù)據(jù)中心基礎設施處理器IPU的應用價值。關于IPU這個名字，很多公司也有不同的叫法，這個其實并不重要。重要的是其實并不是某一個芯片，而是指代一類芯片和硬件產(chǎn)品。

比如這次架構日英特爾推出的代號為Mount Evans的ASIC IPU、以及基于FPGA的Oak Springs Canyon及Arrow Creek，都是廣義上IPU的一種。它們的主要作用，都是用來進行數(shù)據(jù)中心基礎設施應用或服務的卸載和加速，釋放寶貴的CPU內核資源，簡化數(shù)據(jù)中心架構設計，同時能夠有效把云服務基礎設施應用以及各個租戶自己的應用區(qū)隔開來，在提升性能的同時增加安全性和可靠性。

接下來我們就繼續(xù)深入看一下這次架構日披露的三款IPU。

4、英特爾首個ASIC IPU Mount Evans

放眼目前整個數(shù)據(jù)中心加速器市場，主要有兩種實現(xiàn)形式，一個種基于FPGA，這種占目前方案的大多數(shù)，另外一種就是基于ASIC、也就是專用芯片的方案，而這次發(fā)布的Mount Evans就屬于后者。

作為英特爾首款ASIC IPU，Mount Evans的設計目標非常明確，就是全力優(yōu)化性能和功耗，同時保證一定程度的可編程性。從芯片的架構圖來看，這一思路也體現(xiàn)得非常明顯。

Mount Evans的芯片架構分成兩個主要部分，左側主要負責網(wǎng)絡和存儲應用的加速，右側負責計算和控制?？梢钥吹剑懊嫣岬降哪切?shù)據(jù)中心基礎設施功能，包括RDMA、NVMe、數(shù)據(jù)包處理、服務質量控制、流量整形、還有像IPSec這樣的安全性應用等等，Mount Evans都有專門的硬件加速單元。此外它還支持200GbE、16通道PCIe 4.0，并支持SR-IOV這些常見的虛擬化功能。

更讓我感興趣的是Mount Evans的可編程性。它使用了高達16個ARM Neoverse N1內核，除了支持DPDK和SPDK這些高性能編程框架之外，還支持P4語言對數(shù)據(jù)面進行編程，這個是我一直期望看到的集成創(chuàng)新。

P4語言是Barefoot公司創(chuàng)始人Nick McKeown在斯坦福與普林斯頓大學、英特爾、谷歌、微軟等公司聯(lián)合設計的新型編程語言，專門用來對網(wǎng)絡交換的數(shù)據(jù)面進行編程。2019年，英特爾收購了Barefoot公司，今年Nick McKeown教授也從斯坦福正式加入英特爾，負責領導網(wǎng)絡和邊緣計算部門。

P4語言在過去幾年里一直是網(wǎng)絡交換和SDN領域非常火的一大方向，很多公司都在自家的網(wǎng)絡產(chǎn)品里加入了對P4語言的支持。所以這次Mount Evans支持P4也算是眾望所歸。

5、基于Agilex FPGA的IPU平臺

本次架構日還發(fā)布了兩個基于Agilex FPGA的IPU板卡。一個是針對云服務提供商設計的Oak Springs Canyon。它是目前已經(jīng)出貨的基于Stratix10 FPGA的IPU – Big Springs Canyon的下一代產(chǎn)品，客戶包括了微軟、百度、京東、VMware等云計算領域的關鍵玩家們。和Mount Evans類似，它也支持2x100GbE、PCIe 4.0x16接口，可以用來加速OVS、NVMe、加解密等等這些數(shù)據(jù)中心基礎設施應用。

Oak Springs Canyon在板卡上還集成了一個Xeon-D CPU，和基于ARM的IPU相比，可以提供原生x86編程模型的支持，也就是可以把一些原本在服務器至強CPU里運行的程序，特別是對性能要求不太苛刻的控制應用，直接卸載到這個Xeon-D里執(zhí)行，而無需進行程序改寫。

另外一個FPGA IPU代號為Arrow Creek，它是針對電信網(wǎng)絡數(shù)據(jù)中心設計的加速產(chǎn)品，可以看出它是個全高半長的PCIe加速卡，使用被動散熱的方式，主要用來加速通信網(wǎng)絡的一些常見的基礎設施功能，特別是虛擬網(wǎng)絡功能，比如交換、路由、防火墻等等。這些都是網(wǎng)絡功能虛擬化場景里的重要功能。

小結

數(shù)據(jù)中心架構的變革，既離不開數(shù)據(jù)中心CPU的不斷進化，也離不開整體架構設計思路的更新?lián)Q代。至少在目前，高性能CPU+高性能硬件加速單元這種組合，仍是現(xiàn)代數(shù)據(jù)中心的主要架構思路。包括Sapphire Rapids、Mount Evans，還有基于FPGA的加速卡IPU，都是對這種設計思路很好的體現(xiàn)。

在下篇文章中，我會繼續(xù)解讀英特爾2021架構日發(fā)布的GPU芯片和軟件技術，包括Xe HPG、XeSS，還有壓軸大戲 – 英特爾歷史上開發(fā)的最復雜芯片，集成千億晶體管的Ponte Vecchio，謝謝關注。

（注：本文僅代表作者個人觀點，與任職單位無關。）