加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    •  
    • Xe 架構(gòu)的主要特點(diǎn)
    • XeLP 的游戲性能
    • 對(duì) AI 運(yùn)算的優(yōu)化
    • 對(duì)多媒體和顯示的優(yōu)化
    • Xe GPU 的軟件堆棧
    • Xe GPU 的產(chǎn)品系列和制造工藝
    • 結(jié)語(yǔ)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

深度剖析英特爾Xe GPU,向量計(jì)算補(bǔ)全自身AI產(chǎn)品組合

2020/08/31
201
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

在 8 月中旬結(jié)束的英特爾 2020 架構(gòu)日活動(dòng)里,英特爾發(fā)布了包括 Tiger Lake SoC、Xe GPU、SuperFin 晶體管工藝、FPGA 路線(xiàn)圖、oneAPI 框架等一系列最新的技術(shù)進(jìn)展。這些技術(shù)和產(chǎn)品涵蓋了工藝、架構(gòu)、存儲(chǔ)、互連、安全、軟件六大層面,這也是英特爾首席架構(gòu)師 Raja Koduri 一直在主推的英特爾全棧式軟硬件架構(gòu)。

Xe GPU 是英特爾近年來(lái)重點(diǎn)研發(fā)的下一代 GPU 架構(gòu)。和英特爾之前的集成 GPU 不同,Xe 更多的是一個(gè)基礎(chǔ) GPU 架構(gòu),由此可以衍生出多種針對(duì)不同應(yīng)用領(lǐng)域和場(chǎng)景的 GPU 產(chǎn)品。這次正式發(fā)布的 Xe GPU 產(chǎn)品系列,從主打集成顯卡和入門(mén)級(jí)獨(dú)立顯卡的 XeLP,到針對(duì)游戲和桌面性能進(jìn)行優(yōu)化的 Xe HPG,再到主要應(yīng)用于數(shù)據(jù)中心AI 的 Xe HP,然后還有面向高性能計(jì)算的 Xe HPC,一共四大系列。

特別值得注意的是,這四類(lèi) Xe GPU 將使用不同的半導(dǎo)體制作工藝進(jìn)行流片生產(chǎn),其中不僅包含英特爾自家的 10 納米工藝,以及這次發(fā)布的下一代 10 納米 SuperFin 工藝,還包含了來(lái)自其他代工廠(chǎng)的工藝。雖然在發(fā)布會(huì)上沒(méi)有直接點(diǎn)名,但臺(tái)積電以 6 納米工藝拿下英特爾數(shù)十萬(wàn)片芯片訂單的消息,早就是公開(kāi)的“秘密”了。

在今年的 HotChips 大會(huì)上,英特爾對(duì) Xe 架構(gòu)進(jìn)行了深入介紹??梢钥吹剑琗e GPU 毫無(wú)疑問(wèn)被英特爾寄予厚望。Xe 的出現(xiàn),正式宣布英特爾進(jìn)軍高性能 GPU 領(lǐng)域,也完成了英特爾的 Scalar(CPU)、Vector(GPU)、Matrix(ASIC)、Spatial(FPGA)四大計(jì)算類(lèi)型的芯片全覆蓋。

在這篇文章中,我將從硬件架構(gòu)、軟件堆棧、應(yīng)用場(chǎng)景等領(lǐng)域?qū)?Xe GPU 進(jìn)行深入的技術(shù)解析。我用思維導(dǎo)圖的形式,總結(jié)了本文涉及的全部技術(shù)要點(diǎn)。

?

Xe 架構(gòu)的主要特點(diǎn)

Xe 的主要設(shè)計(jì)思路有三點(diǎn):軟件先行、兼顧擴(kuò)展、全新應(yīng)用。這表明 Xe 并非是作為一個(gè)孤立的產(chǎn)品出現(xiàn),而是會(huì)結(jié)合英特爾完整的硬件產(chǎn)品組合、以及統(tǒng)一的軟件開(kāi)發(fā)環(huán)境而協(xié)同設(shè)計(jì)。Raja 多次強(qiáng)調(diào),希望使用相同的軟件棧、相同的微架構(gòu)設(shè)計(jì),實(shí)現(xiàn)多個(gè) Xe 產(chǎn)品的快速擴(kuò)展,這在后面的文章中也會(huì)多次提及。

Xe 的主體架構(gòu)基于 Slice 實(shí)現(xiàn),最多有 6 個(gè) subSlice,共計(jì)高達(dá) 96 個(gè) EU(Execution Unit),能提供每周期 1536 次浮點(diǎn)運(yùn)算。

和英特爾的前一代集顯相比,XeLP 幾乎重新設(shè)計(jì)了自身的微架構(gòu),特別是最基本的運(yùn)算執(zhí)行單元 EU。XeLP 的 EU 架構(gòu)示意圖如下所示。

在英特爾的第 11 代集顯中,每個(gè) EU 里包含 8 個(gè)用來(lái)進(jìn)行算術(shù)運(yùn)算的流水線(xiàn)。為了得到更高的算術(shù)運(yùn)算性能,XeLP 將 EU 里的算術(shù)運(yùn)算流水線(xiàn)擴(kuò)展了一倍,達(dá)到 16 條。這些算術(shù)運(yùn)算流水線(xiàn)可以執(zhí)行定點(diǎn)數(shù)、單精度浮點(diǎn)數(shù)和雙精度浮點(diǎn)數(shù)運(yùn)算,以及復(fù)雜數(shù)學(xué)運(yùn)算和可選的矩陣運(yùn)算的擴(kuò)展。每條流水線(xiàn)的寬度都比上一代得到了增加,從而將 INT16 和 INT32 的性能提升了一倍。事實(shí)上,為了簡(jiǎn)化實(shí)現(xiàn)過(guò)程,XeLP 將上一代集顯的兩個(gè) EU 單元合并在一起,并共用一個(gè)線(xiàn)程管理模塊。

存儲(chǔ)系統(tǒng)方面,XeLP 重新設(shè)計(jì)了 L1 Cache,并將 L3 Cache 的容量提升到了 16MB。此外還將顯卡內(nèi)存的帶寬增加了一倍。

XeLP 的游戲性能

XeLP 主要的市場(chǎng)定位是集成顯卡以及入門(mén)級(jí)獨(dú)立顯卡。即便如此,XeLP 也對(duì)游戲性能進(jìn)行了針對(duì)性的優(yōu)化。下面就是一些在 XeLP 上運(yùn)行的游戲截圖,例如,XeLP 可以支持戰(zhàn)地 5 在 1080p、30FPS 和特效全開(kāi)時(shí)的流暢運(yùn)行。?

在具體的優(yōu)化方面,首先就是在保持相同性能的前提下,大幅降低了功耗。例如,下圖展示了在運(yùn)行戰(zhàn)地 1 的時(shí)候,英特爾前一代 GPU 和 XeLP 的畫(huà)面和功耗對(duì)比??梢钥吹?,在畫(huà)質(zhì)相似的情況下,前一代 GPU 的功耗為 25 瓦,而 XeLP 僅為 15 瓦。此外,XeLP 還對(duì)幀率進(jìn)行了提升,這也能很大程度上避免掉幀,使得畫(huà)質(zhì)表現(xiàn)更為細(xì)膩,在下圖中坦克的履帶部分也能較為明顯的看出來(lái)。

正因如此,在相同功耗條件下,XeLP 可以在保證穩(wěn)定幀數(shù)的同時(shí),帶來(lái)更高質(zhì)量的畫(huà)面效果。下圖就對(duì)比了前一代 GPU 和 XeLP 的畫(huà)面渲染能力和畫(huà)質(zhì)??梢钥吹剑琗eLP 的細(xì)節(jié)表現(xiàn)能力要遠(yuǎn)超于前一代 GPU,比如對(duì)陰影部分和車(chē)體細(xì)節(jié)的刻畫(huà)等等。

在跑分方面,和同級(jí)別的英偉達(dá) GeForce MX350、以及 AMD 的 Vega8 相比,XeLP GPU 跑出了更高的評(píng)分,見(jiàn)下表:

值得注意的是,這里參與跑分的是集成在 Tiger Lake 里的集成 Xe GPU,但它的跑分竟稍微超過(guò)了英偉達(dá)的獨(dú)立顯卡 MX350。要知道,后者不僅有更高的頻率,還有 2GB 的 GDDR5 顯存。這也從另外一個(gè)角度印證了 Xe 的性能潛力。

對(duì) AI 運(yùn)算的優(yōu)化

在英特爾最新的 Tiger Lake 架構(gòu)中,包含了名為 Willow Core 的全新 CPU 內(nèi)核單元,以及 XeLP 的集顯版本。關(guān)于 Tiger Lake 和 Willow Core 的詳細(xì)技術(shù)解讀,將會(huì)在下篇文章里進(jìn)行深入介紹。這里想提到的是,Tiger Lake 里的 XeLP 還對(duì) AI 運(yùn)算進(jìn)行了一定的架構(gòu)優(yōu)化。當(dāng)結(jié)合 OpenVINO 工具包和英特爾的 DL Boost 技術(shù)時(shí),就可以大幅提升 AI 推斷的算力。如下圖所示,當(dāng)運(yùn)行 Gigapixel AI 進(jìn)行圖像增強(qiáng)時(shí),XeLP 和前兩代 GPU 相比取得了指數(shù)級(jí)的算力提升。

對(duì)多媒體和顯示的優(yōu)化

XeLP 對(duì)于多媒體和顯示方面的優(yōu)化,主要的受眾就是廣大的視頻和圖像內(nèi)容創(chuàng)作者。這方面的優(yōu)化主要有三個(gè)主要方向,即提供更多的像素、更多色彩、以及更低的功耗。

具體來(lái)說(shuō),XeLP 里集成了多媒體引擎(Media Engine),它支持 4K/8K60 幀視頻、Dolby 視界 HDR 等一系列超高清視頻標(biāo)準(zhǔn),在編解碼吞吐量上達(dá)到了最高 2 倍的性能提升。

在 XeLP 的顯示引擎(Display Engine)里,集成了 4 條像素處理流水線(xiàn),使得 XeLP 支持包括 DisplayPort1.4、HDMI2.0、USB4 Type-C 等多種視頻接口,以及 8K UHD、HDR10 和杜比視界等多種超高清視頻的播放。

關(guān)于多媒體引擎和顯示引擎的具體架構(gòu)細(xì)節(jié),可以參見(jiàn) Xe 在 HotChips2020 上的幻燈片,已上傳至知識(shí)星球。

Xe GPU 的軟件堆棧

Xe 作為一個(gè)全新的 GPU 產(chǎn)品系列,它的一個(gè)主要優(yōu)化重點(diǎn)就在于軟件系統(tǒng)的設(shè)計(jì)。它的設(shè)計(jì)重心,就是為現(xiàn)在和未來(lái)的 Xe 架構(gòu)使用統(tǒng)一的驅(qū)動(dòng)協(xié)議棧,這與英特爾 oneAPI 的核心思想是一致的。oneAPI 是英特爾在軟件層面最大的雄心,關(guān)于 oneAPI 的更多內(nèi)容,可以看一下老石之前的文章《oneAPI:天下大同》。

相比之前的集成顯卡系列,Xe GPU 對(duì)軟件驅(qū)動(dòng)的架構(gòu)做了很多大刀闊斧的改變。其中最主要的有三點(diǎn):更高效的編譯器、全新的 DirectX11 驅(qū)動(dòng),以及 GPU Profile(見(jiàn)下圖)。此外,Xe 還支持對(duì)特定游戲的針對(duì)性?xún)?yōu)化,名為 Instant Game Tuning。這種優(yōu)化方式會(huì)自動(dòng)進(jìn)行,不需要進(jìn)行額外的驅(qū)動(dòng)更新。

Xe GPU 的產(chǎn)品系列和制造工藝

前面介紹的 XeLP,主要將作為 TigerLake SoC 里的集成 GPU 面向市場(chǎng)。但除此之外,XeLP 還有其他兩種產(chǎn)品形式,一個(gè)稱(chēng)為 DG1,另一個(gè)稱(chēng)為 SG1。其中,DG1 是英特爾的首個(gè)獨(dú)立顯卡產(chǎn)品,它主要面向的是基于移動(dòng)平臺(tái)的視頻和圖像內(nèi)容創(chuàng)作者。SG1 是另一個(gè)基于 XeLP 架構(gòu)的獨(dú)立顯卡產(chǎn)品,它主要面向的則是數(shù)據(jù)中心里的多媒體內(nèi)容處理和相關(guān)應(yīng)用。

對(duì)于數(shù)據(jù)中心更廣闊的應(yīng)用場(chǎng)景,Xe 有一款名為 XeHP 的 GPU 產(chǎn)品專(zhuān)門(mén)負(fù)責(zé)。和 XeLP 相比,XeHP 在微架構(gòu)上專(zhuān)門(mén)為數(shù)據(jù)中心做了優(yōu)化,以提升 GPU 的整體性能。例如,XeHP 的 EU 數(shù)量,從 XeLP 的幾十個(gè),直接增加到上千個(gè);運(yùn)行頻率比 XeLP 上升兩倍;顯存帶寬和 IPC 也比集成顯卡提升 10 倍,等等。此外,XeHP 還特別設(shè)計(jì)了數(shù)學(xué)運(yùn)算單元,比如增強(qiáng)了對(duì)雙精度浮點(diǎn)數(shù)和 AI 相關(guān)的數(shù)學(xué)運(yùn)算的硬件支持。

更有意思的是,XeHP 還能通過(guò)直接增加 Tile 的數(shù)量,實(shí)現(xiàn)性能的線(xiàn)性增長(zhǎng)。例如,XeHP 目前有三種封裝形式,分別包含了 1 個(gè)、2 個(gè)和 4 個(gè) Tile,其中每個(gè) Tile 就是一個(gè)完整的 Xe GPU 子芯片。

從下面的實(shí)驗(yàn)室測(cè)試實(shí)例可以看到,當(dāng)增加 Tile 的數(shù)量時(shí),芯片的 FP32 峰值算力從 10TFLOPS,線(xiàn)性上升到 21TFLOPS 和 42TFLOPS。

這種線(xiàn)性擴(kuò)展的最大優(yōu)勢(shì)在于,在一次性完成單個(gè) Tile 的軟硬件設(shè)計(jì)之后,直接通過(guò)增加 Tile 的數(shù)量就可以成倍提升性能,而無(wú)需對(duì)軟硬件做出改變或重新設(shè)計(jì)。事實(shí)上,這樣的線(xiàn)性擴(kuò)展并沒(méi)有看起來(lái)這么直接,這其中涉及了諸如芯片封裝、互連、軟硬件架構(gòu)的擴(kuò)展性設(shè)計(jì)等很多方面的內(nèi)容。這和英特爾 FPGA 里使用的,通過(guò) EMIB 和 AIB 技術(shù)將 FPGA 的可編程邏輯陣列與不同收發(fā)器模塊進(jìn)行互連,有著異曲同工之妙。

Xe 的第三個(gè)產(chǎn)品大類(lèi),名為 XeHPG,它專(zhuān)門(mén)針對(duì)游戲和高性能桌面應(yīng)用進(jìn)行了優(yōu)化,比如增加了光線(xiàn)追蹤(Ray-Tracing)的硬件支持等等。XeHPG 預(yù)計(jì) 2021 年正式出貨。

Xe 的最后一個(gè)產(chǎn)品系列,就是代號(hào)為 Ponte Vecchio 的 XeHPC,它主要面向高性能計(jì)算、超級(jí)計(jì)算機(jī)等領(lǐng)域進(jìn)行優(yōu)化和設(shè)計(jì)。

前不久英特爾宣布,自家的 7 納米工藝遇到問(wèn)題,并將投產(chǎn)時(shí)間推遲到 2022 年,這也造成了英特爾股價(jià)暴跌近 20%。隨后英特爾宣布,會(huì)考慮和其他芯片代工廠(chǎng)合作,并外包部分芯片產(chǎn)品。正如本文開(kāi)頭提到的,臺(tái)積電隨后獲得了英特爾的 18 萬(wàn)片 6 納米芯片訂單。

這些訂單中的很大一部分,就來(lái)自 Xe GPU 系列。在本次發(fā)布會(huì)上,英特爾表示將會(huì)把 XeHPG 和 HeHPC 的一部分芯片使用“外部”工藝進(jìn)行生產(chǎn),如下圖所示。相信這勢(shì)必會(huì)加速 Xe GPU 的面世時(shí)間。

相比之下,XeLP 會(huì)使用英特爾 10 納米 SuperFin 工藝生產(chǎn),XeHP 會(huì)使用增強(qiáng)的 SuperFin 工藝生產(chǎn)。值得注意的是,最高端的 XeHPC 將使用英特爾的 Foveros 3D 封裝技術(shù),以及 CO-EMIB 互連技術(shù),并采用四種不同的生產(chǎn)工藝,以針對(duì)不同的細(xì)分領(lǐng)域進(jìn)行優(yōu)化。

結(jié)語(yǔ)

從 Xe 最初的傳言至今,Xe 的發(fā)展和動(dòng)態(tài)一直是業(yè)界關(guān)心的重點(diǎn)。Xe GPU 的出現(xiàn),從多個(gè)維度補(bǔ)充了英特爾當(dāng)前缺失的多個(gè)產(chǎn)品拼圖。首先,它正式宣告英特爾進(jìn)軍高性能 GPU 領(lǐng)域,并將觸角一次性伸向移動(dòng)端、桌面端、游戲、數(shù)據(jù)中心、高性能計(jì)算等多個(gè)領(lǐng)域。此外,Xe GPU 將作為英特爾“向量計(jì)算”的代表性產(chǎn)品,進(jìn)一步補(bǔ)全了英特爾的 AI 產(chǎn)品組合,如下圖所示。

從架構(gòu)和技術(shù)的角度,Xe 采用了一種通用的微架構(gòu),并在此基礎(chǔ)上實(shí)現(xiàn)了多個(gè)系列的演變和快速擴(kuò)展。這非常符合當(dāng)前領(lǐng)域細(xì)分的芯片設(shè)計(jì)大趨勢(shì),根據(jù)現(xiàn)有的跑分和演示來(lái)看,Xe 和其他競(jìng)爭(zhēng)對(duì)手相比,也有著很強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)。那么究竟 Xe 能否幫助英特爾沖出重圍,打下一片新的江山,我們拭目以待。

英特爾

英特爾

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

微信公眾號(hào)“老石談芯”主理人,博士畢業(yè)于倫敦帝國(guó)理工大學(xué)電子工程系,現(xiàn)任某知名半導(dǎo)體公司高級(jí)FPGA研發(fā)工程師,從事基于FPGA的數(shù)據(jù)中心網(wǎng)絡(luò)加速、網(wǎng)絡(luò)功能虛擬化、高速有線(xiàn)網(wǎng)絡(luò)通信等領(lǐng)域的研發(fā)和創(chuàng)新工作。曾經(jīng)針對(duì)FPGA、高性能與可重構(gòu)計(jì)算等技術(shù)在學(xué)術(shù)界頂級(jí)會(huì)議和期刊上發(fā)表過(guò)多篇研究論文。