影视大全免费在线观看,狠狠躁日日躁夜夜躁2020老妇,欧美一级做

在 8 月中旬結(jié)束的英特爾 2020 架構(gòu)日活動(dòng)里，英特爾發(fā)布了包括 Tiger Lake SoC、Xe GPU、SuperFin 晶體管工藝、FPGA 路線(xiàn)圖、oneAPI 框架等一系列最新的技術(shù)進(jìn)展。這些技術(shù)和產(chǎn)品涵蓋了工藝、架構(gòu)、存儲(chǔ)、互連、安全、軟件六大層面，這也是英特爾首席架構(gòu)師 Raja Koduri 一直在主推的英特爾全棧式軟硬件架構(gòu)。

Xe GPU 是英特爾近年來(lái)重點(diǎn)研發(fā)的下一代 GPU 架構(gòu)。和英特爾之前的集成 GPU 不同，Xe 更多的是一個(gè)基礎(chǔ) GPU 架構(gòu)，由此可以衍生出多種針對(duì)不同應(yīng)用領(lǐng)域和場(chǎng)景的 GPU 產(chǎn)品。這次正式發(fā)布的 Xe GPU 產(chǎn)品系列，從主打集成顯卡和入門(mén)級(jí)獨(dú)立顯卡的 XeLP，到針對(duì)游戲和桌面性能進(jìn)行優(yōu)化的 Xe HPG，再到主要應(yīng)用于數(shù)據(jù)中心和 AI 的 Xe HP，然后還有面向高性能計(jì)算的 Xe HPC，一共四大系列。

特別值得注意的是，這四類(lèi) Xe GPU 將使用不同的半導(dǎo)體制作工藝進(jìn)行流片生產(chǎn)，其中不僅包含英特爾自家的 10 納米工藝，以及這次發(fā)布的下一代 10 納米 SuperFin 工藝，還包含了來(lái)自其他代工廠(chǎng)的工藝。雖然在發(fā)布會(huì)上沒(méi)有直接點(diǎn)名，但臺(tái)積電以 6 納米工藝拿下英特爾數(shù)十萬(wàn)片芯片訂單的消息，早就是公開(kāi)的“秘密”了。

在今年的 HotChips 大會(huì)上，英特爾對(duì) Xe 架構(gòu)進(jìn)行了深入介紹?？梢钥吹剑琗e GPU 毫無(wú)疑問(wèn)被英特爾寄予厚望。Xe 的出現(xiàn)，正式宣布英特爾進(jìn)軍高性能 GPU 領(lǐng)域，也完成了英特爾的 Scalar（CPU）、Vector（GPU）、Matrix（ASIC）、Spatial（FPGA）四大計(jì)算類(lèi)型的芯片全覆蓋。

在這篇文章中，我將從硬件架構(gòu)、軟件堆棧、應(yīng)用場(chǎng)景等領(lǐng)域?qū)?Xe GPU 進(jìn)行深入的技術(shù)解析。我用思維導(dǎo)圖的形式，總結(jié)了本文涉及的全部技術(shù)要點(diǎn)。

?

Xe 架構(gòu)的主要特點(diǎn)

Xe 的主要設(shè)計(jì)思路有三點(diǎn)：軟件先行、兼顧擴(kuò)展、全新應(yīng)用。這表明 Xe 并非是作為一個(gè)孤立的產(chǎn)品出現(xiàn)，而是會(huì)結(jié)合英特爾完整的硬件產(chǎn)品組合、以及統(tǒng)一的軟件開(kāi)發(fā)環(huán)境而協(xié)同設(shè)計(jì)。Raja 多次強(qiáng)調(diào)，希望使用相同的軟件棧、相同的微架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)多個(gè) Xe 產(chǎn)品的快速擴(kuò)展，這在后面的文章中也會(huì)多次提及。

Xe 的主體架構(gòu)基于 Slice 實(shí)現(xiàn)，最多有 6 個(gè) subSlice，共計(jì)高達(dá) 96 個(gè) EU（Execution Unit），能提供每周期 1536 次浮點(diǎn)運(yùn)算。

和英特爾的前一代集顯相比，XeLP 幾乎重新設(shè)計(jì)了自身的微架構(gòu)，特別是最基本的運(yùn)算執(zhí)行單元 EU。XeLP 的 EU 架構(gòu)示意圖如下所示。

在英特爾的第 11 代集顯中，每個(gè) EU 里包含 8 個(gè)用來(lái)進(jìn)行算術(shù)運(yùn)算的流水線(xiàn)。為了得到更高的算術(shù)運(yùn)算性能，XeLP 將 EU 里的算術(shù)運(yùn)算流水線(xiàn)擴(kuò)展了一倍，達(dá)到 16 條。這些算術(shù)運(yùn)算流水線(xiàn)可以執(zhí)行定點(diǎn)數(shù)、單精度浮點(diǎn)數(shù)和雙精度浮點(diǎn)數(shù)運(yùn)算，以及復(fù)雜數(shù)學(xué)運(yùn)算和可選的矩陣運(yùn)算的擴(kuò)展。每條流水線(xiàn)的寬度都比上一代得到了增加，從而將 INT16 和 INT32 的性能提升了一倍。事實(shí)上，為了簡(jiǎn)化實(shí)現(xiàn)過(guò)程，XeLP 將上一代集顯的兩個(gè) EU 單元合并在一起，并共用一個(gè)線(xiàn)程管理模塊。

在存儲(chǔ)系統(tǒng)方面，XeLP 重新設(shè)計(jì)了 L1 Cache，并將 L3 Cache 的容量提升到了 16MB。此外還將顯卡內(nèi)存的帶寬增加了一倍。

XeLP 的游戲性能

XeLP 主要的市場(chǎng)定位是集成顯卡以及入門(mén)級(jí)獨(dú)立顯卡。即便如此，XeLP 也對(duì)游戲性能進(jìn)行了針對(duì)性的優(yōu)化。下面就是一些在 XeLP 上運(yùn)行的游戲截圖，例如，XeLP 可以支持戰(zhàn)地 5 在 1080p、30FPS 和特效全開(kāi)時(shí)的流暢運(yùn)行。?

在具體的優(yōu)化方面，首先就是在保持相同性能的前提下，大幅降低了功耗。例如，下圖展示了在運(yùn)行戰(zhàn)地 1 的時(shí)候，英特爾前一代 GPU 和 XeLP 的畫(huà)面和功耗對(duì)比?？梢钥吹?，在畫(huà)質(zhì)相似的情況下，前一代 GPU 的功耗為 25 瓦，而 XeLP 僅為 15 瓦。此外，XeLP 還對(duì)幀率進(jìn)行了提升，這也能很大程度上避免掉幀，使得畫(huà)質(zhì)表現(xiàn)更為細(xì)膩，在下圖中坦克的履帶部分也能較為明顯的看出來(lái)。

正因如此，在相同功耗條件下，XeLP 可以在保證穩(wěn)定幀數(shù)的同時(shí)，帶來(lái)更高質(zhì)量的畫(huà)面效果。下圖就對(duì)比了前一代 GPU 和 XeLP 的畫(huà)面渲染能力和畫(huà)質(zhì)?？梢钥吹剑琗eLP 的細(xì)節(jié)表現(xiàn)能力要遠(yuǎn)超于前一代 GPU，比如對(duì)陰影部分和車(chē)體細(xì)節(jié)的刻畫(huà)等等。

在跑分方面，和同級(jí)別的英偉達(dá) GeForce MX350、以及 AMD 的 Vega8 相比，XeLP GPU 跑出了更高的評(píng)分，見(jiàn)下表：

值得注意的是，這里參與跑分的是集成在 Tiger Lake 里的集成 Xe GPU，但它的跑分竟稍微超過(guò)了英偉達(dá)的獨(dú)立顯卡 MX350。要知道，后者不僅有更高的頻率，還有 2GB 的 GDDR5 顯存。這也從另外一個(gè)角度印證了 Xe 的性能潛力。

對(duì) AI 運(yùn)算的優(yōu)化

在英特爾最新的 Tiger Lake 架構(gòu)中，包含了名為 Willow Core 的全新 CPU 內(nèi)核單元，以及 XeLP 的集顯版本。關(guān)于 Tiger Lake 和 Willow Core 的詳細(xì)技術(shù)解讀，將會(huì)在下篇文章里進(jìn)行深入介紹。這里想提到的是，Tiger Lake 里的 XeLP 還對(duì) AI 運(yùn)算進(jìn)行了一定的架構(gòu)優(yōu)化。當(dāng)結(jié)合 OpenVINO 工具包和英特爾的 DL Boost 技術(shù)時(shí)，就可以大幅提升 AI 推斷的算力。如下圖所示，當(dāng)運(yùn)行 Gigapixel AI 進(jìn)行圖像增強(qiáng)時(shí)，XeLP 和前兩代 GPU 相比取得了指數(shù)級(jí)的算力提升。

對(duì)多媒體和顯示的優(yōu)化

XeLP 對(duì)于多媒體和顯示方面的優(yōu)化，主要的受眾就是廣大的視頻和圖像內(nèi)容創(chuàng)作者。這方面的優(yōu)化主要有三個(gè)主要方向，即提供更多的像素、更多色彩、以及更低的功耗。

具體來(lái)說(shuō)，XeLP 里集成了多媒體引擎（Media Engine），它支持 4K/8K60 幀視頻、Dolby 視界 HDR 等一系列超高清視頻標(biāo)準(zhǔn)，在編解碼吞吐量上達(dá)到了最高 2 倍的性能提升。

在 XeLP 的顯示引擎（Display Engine）里，集成了 4 條像素處理流水線(xiàn)，使得 XeLP 支持包括 DisplayPort1.4、HDMI2.0、USB4 Type-C 等多種視頻接口，以及 8K UHD、HDR10 和杜比視界等多種超高清視頻的播放。

關(guān)于多媒體引擎和顯示引擎的具體架構(gòu)細(xì)節(jié)，可以參見(jiàn) Xe 在 HotChips2020 上的幻燈片，已上傳至知識(shí)星球。

Xe GPU 的軟件堆棧

Xe 作為一個(gè)全新的 GPU 產(chǎn)品系列，它的一個(gè)主要優(yōu)化重點(diǎn)就在于軟件系統(tǒng)的設(shè)計(jì)。它的設(shè)計(jì)重心，就是為現(xiàn)在和未來(lái)的 Xe 架構(gòu)使用統(tǒng)一的驅(qū)動(dòng)協(xié)議棧，這與英特爾 oneAPI 的核心思想是一致的。oneAPI 是英特爾在軟件層面最大的雄心，關(guān)于 oneAPI 的更多內(nèi)容，可以看一下老石之前的文章《oneAPI：天下大同》。

相比之前的集成顯卡系列，Xe GPU 對(duì)軟件驅(qū)動(dòng)的架構(gòu)做了很多大刀闊斧的改變。其中最主要的有三點(diǎn)：更高效的編譯器、全新的 DirectX11 驅(qū)動(dòng)，以及 GPU Profile（見(jiàn)下圖）。此外，Xe 還支持對(duì)特定游戲的針對(duì)性?xún)?yōu)化，名為 Instant Game Tuning。這種優(yōu)化方式會(huì)自動(dòng)進(jìn)行，不需要進(jìn)行額外的驅(qū)動(dòng)更新。

Xe GPU 的產(chǎn)品系列和制造工藝

前面介紹的 XeLP，主要將作為 TigerLake SoC 里的集成 GPU 面向市場(chǎng)。但除此之外，XeLP 還有其他兩種產(chǎn)品形式，一個(gè)稱(chēng)為 DG1，另一個(gè)稱(chēng)為 SG1。其中，DG1 是英特爾的首個(gè)獨(dú)立顯卡產(chǎn)品，它主要面向的是基于移動(dòng)平臺(tái)的視頻和圖像內(nèi)容創(chuàng)作者。SG1 是另一個(gè)基于 XeLP 架構(gòu)的獨(dú)立顯卡產(chǎn)品，它主要面向的則是數(shù)據(jù)中心里的多媒體內(nèi)容處理和相關(guān)應(yīng)用。

對(duì)于數(shù)據(jù)中心更廣闊的應(yīng)用場(chǎng)景，Xe 有一款名為 XeHP 的 GPU 產(chǎn)品專(zhuān)門(mén)負(fù)責(zé)。和 XeLP 相比，XeHP 在微架構(gòu)上專(zhuān)門(mén)為數(shù)據(jù)中心做了優(yōu)化，以提升 GPU 的整體性能。例如，XeHP 的 EU 數(shù)量，從 XeLP 的幾十個(gè)，直接增加到上千個(gè)；運(yùn)行頻率比 XeLP 上升兩倍；顯存帶寬和 IPC 也比集成顯卡提升 10 倍，等等。此外，XeHP 還特別設(shè)計(jì)了數(shù)學(xué)運(yùn)算單元，比如增強(qiáng)了對(duì)雙精度浮點(diǎn)數(shù)和 AI 相關(guān)的數(shù)學(xué)運(yùn)算的硬件支持。

更有意思的是，XeHP 還能通過(guò)直接增加 Tile 的數(shù)量，實(shí)現(xiàn)性能的線(xiàn)性增長(zhǎng)。例如，XeHP 目前有三種封裝形式，分別包含了 1 個(gè)、2 個(gè)和 4 個(gè) Tile，其中每個(gè) Tile 就是一個(gè)完整的 Xe GPU 子芯片。

從下面的實(shí)驗(yàn)室測(cè)試實(shí)例可以看到，當(dāng)增加 Tile 的數(shù)量時(shí)，芯片的 FP32 峰值算力從 10TFLOPS，線(xiàn)性上升到 21TFLOPS 和 42TFLOPS。

這種線(xiàn)性擴(kuò)展的最大優(yōu)勢(shì)在于，在一次性完成單個(gè) Tile 的軟硬件設(shè)計(jì)之后，直接通過(guò)增加 Tile 的數(shù)量就可以成倍提升性能，而無(wú)需對(duì)軟硬件做出改變或重新設(shè)計(jì)。事實(shí)上，這樣的線(xiàn)性擴(kuò)展并沒(méi)有看起來(lái)這么直接，這其中涉及了諸如芯片封裝、互連、軟硬件架構(gòu)的擴(kuò)展性設(shè)計(jì)等很多方面的內(nèi)容。這和英特爾 FPGA 里使用的，通過(guò) EMIB 和 AIB 技術(shù)將 FPGA 的可編程邏輯陣列與不同收發(fā)器模塊進(jìn)行互連，有著異曲同工之妙。

Xe 的第三個(gè)產(chǎn)品大類(lèi)，名為 XeHPG，它專(zhuān)門(mén)針對(duì)游戲和高性能桌面應(yīng)用進(jìn)行了優(yōu)化，比如增加了光線(xiàn)追蹤（Ray-Tracing）的硬件支持等等。XeHPG 預(yù)計(jì) 2021 年正式出貨。

Xe 的最后一個(gè)產(chǎn)品系列，就是代號(hào)為 Ponte Vecchio 的 XeHPC，它主要面向高性能計(jì)算、超級(jí)計(jì)算機(jī)等領(lǐng)域進(jìn)行優(yōu)化和設(shè)計(jì)。

前不久英特爾宣布，自家的 7 納米工藝遇到問(wèn)題，并將投產(chǎn)時(shí)間推遲到 2022 年，這也造成了英特爾股價(jià)暴跌近 20%。隨后英特爾宣布，會(huì)考慮和其他芯片代工廠(chǎng)合作，并外包部分芯片產(chǎn)品。正如本文開(kāi)頭提到的，臺(tái)積電隨后獲得了英特爾的 18 萬(wàn)片 6 納米芯片訂單。

這些訂單中的很大一部分，就來(lái)自 Xe GPU 系列。在本次發(fā)布會(huì)上，英特爾表示將會(huì)把 XeHPG 和 HeHPC 的一部分芯片使用“外部”工藝進(jìn)行生產(chǎn)，如下圖所示。相信這勢(shì)必會(huì)加速 Xe GPU 的面世時(shí)間。

相比之下，XeLP 會(huì)使用英特爾 10 納米 SuperFin 工藝生產(chǎn)，XeHP 會(huì)使用增強(qiáng)的 SuperFin 工藝生產(chǎn)。值得注意的是，最高端的 XeHPC 將使用英特爾的 Foveros 3D 封裝技術(shù)，以及 CO-EMIB 互連技術(shù)，并采用四種不同的生產(chǎn)工藝，以針對(duì)不同的細(xì)分領(lǐng)域進(jìn)行優(yōu)化。

結(jié)語(yǔ)

從 Xe 最初的傳言至今，Xe 的發(fā)展和動(dòng)態(tài)一直是業(yè)界關(guān)心的重點(diǎn)。Xe GPU 的出現(xiàn)，從多個(gè)維度補(bǔ)充了英特爾當(dāng)前缺失的多個(gè)產(chǎn)品拼圖。首先，它正式宣告英特爾進(jìn)軍高性能 GPU 領(lǐng)域，并將觸角一次性伸向移動(dòng)端、桌面端、游戲、數(shù)據(jù)中心、高性能計(jì)算等多個(gè)領(lǐng)域。此外，Xe GPU 將作為英特爾“向量計(jì)算”的代表性產(chǎn)品，進(jìn)一步補(bǔ)全了英特爾的 AI 產(chǎn)品組合，如下圖所示。

從架構(gòu)和技術(shù)的角度，Xe 采用了一種通用的微架構(gòu)，并在此基礎(chǔ)上實(shí)現(xiàn)了多個(gè)系列的演變和快速擴(kuò)展。這非常符合當(dāng)前領(lǐng)域細(xì)分的芯片設(shè)計(jì)大趨勢(shì)，根據(jù)現(xiàn)有的跑分和演示來(lái)看，Xe 和其他競(jìng)爭(zhēng)對(duì)手相比，也有著很強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)。那么究竟 Xe 能否幫助英特爾沖出重圍，打下一片新的江山，我們拭目以待。