電子產(chǎn)品通常都是越用越不值錢,但現(xiàn)在有一個例外,那就是顯卡。當顯卡已經(jīng)成為了理財產(chǎn)品的現(xiàn)在,英特爾推出了自己首個針對游戲應用的“Arc銳炫”獨立顯卡系列,首款產(chǎn)品名為Alchemist煉金術師。
英特爾此時進軍獨顯市場,是基于怎樣的考慮?英特爾的新一代獨立顯卡,在技術上有哪些獨到之處?特別是為何在顯卡里集成了大量AI加速引擎?它會對現(xiàn)在的顯卡市場造成怎樣的改變?今天的文章我們就一起來看一下。
ARC是誰
在去年九月的架構日活動里,英特爾就深度披露了關于ARC的許多技術細節(jié),特別是它針對游戲應用的Xe HPG微架構。在今年一月的CES大會上,英特爾又進一步展示了ARC的更多內(nèi)容和最新進展。
英特爾在GPU的架構上是有不少技術積累的,至少在集顯領域,大部分的英特爾CPU產(chǎn)品都搭載著自家的Iris集成顯卡。因此,看著Xe HPG的微架構,我們會在某些細節(jié)處感受到一些似曾相識的感覺。
但作為一款可擴展的、為游戲這一應用場景深度優(yōu)化的獨立顯卡,它終究是基于一種完全不同于前輩們的設計理念。
首先,Xe內(nèi)核(Xe-core)取代了此前集成顯卡架構中的EU(Execution Unit)的概念,成為了Xe HPG架構中最基礎的執(zhí)行單元。每一個Xe內(nèi)核中都配置了數(shù)量可觀的運算單元,包括16個256位的矢量引擎和16個1024位的矩陣引擎。矢量引擎主要負責包括傳統(tǒng)的圖像處理在內(nèi)的計算任務,而矩陣則是為了加速AI運算。
為什么顯卡內(nèi)核里要集成AI加速單元呢?這個和游戲又有什么關系呢?先賣個關子,咱們先繼續(xù)看架構。
再往上看,每4個Xe內(nèi)核組成了一個Rendering Slice,也就是"渲染切片",這個單元在Xe內(nèi)核的基礎上增加了針對DX12 Ultimate的優(yōu)化、用來做實時3D渲染的硬件。每個切片還配備了四個硬件光追單元,以支持實時的光線追蹤技術。
追求極致游戲體驗的小伙伴一定對光追技術并不陌生,因為其應用能夠顯著地提升那些3A大作的畫面和光影效果。既然沉浸式的游戲體驗已經(jīng)離不開光追,為游戲而生的Xe HPG自然沒忘了提供相應的硬件支持,這也是它和其他Xe微架構的最主要區(qū)別。
此外,Xe HPG當然也沒忘了其他主流的圖形技術,比如網(wǎng)格著色、采樣器反饋等,我們也能在渲染切片中找到相應的硬件支持。
Xe HPG最大的特點就是靈活。每個Xe HPG都有一個大的二級緩存,由多個渲染切片共享,最多支持8個。這樣的結構可擴展性很強,一方面,根據(jù)切片的數(shù)量的不同,產(chǎn)品線變得更加豐富,用戶有更多的選擇。另一方面,這樣的連接方式也使得多張顯卡的協(xié)同工作成為可能。
怎么樣,是不是有種格局打開了的感覺?
根據(jù)英特爾的數(shù)據(jù),Xe HPG在同等電壓下的頻率是XeLP獨顯的1.5倍,同時每瓦性能也比XeLP提升1.5倍。
英特爾獨立游戲顯卡的品牌名是Arc,中文名叫英特爾銳炫。其中Alchemist煉金術師是它的第一個產(chǎn)品,將于今年一季度上市。之后三款產(chǎn)品的代號都按ABCD字母表的順序排列,分別是Battlemage戰(zhàn)斗法師,Celestial天神,Druid德魯伊。
AI如何改變游戲?
說起游戲體驗,幀率和分辨率也許是大部分玩家最為關注的兩個因素,它們分別決定著畫面的流暢感和清晰度。
盡管幀率和分辨率不是非此即彼的關系,但很多時候都是不能兩者兼得的。
打個比方,如果GPU是一家餐廳的大廚,那么幀率就好比是上菜的速度,分辨率則是菜品的質量。如果顧客對于上菜的速度的要求非常高,那么大廚顯然就沒有充足的時間把一道煮白菜按照國宴標準的開水白菜去料理。同樣的,如果顧客認定了非要吃國宴,那也就得老實待著,別指望能在短時間內(nèi)吃上。
對于游戲來說也是這樣:想體驗細節(jié)拉滿的畫面?復雜的渲染任務很可能讓幀數(shù)嗖嗖地往下掉。
但是作為成年人,自然是不會滿足于做單選題。這個時候就需要人工智能AI的幫助了。為了解決幀率和分辨率不可兼得的問題,英特爾推出了一個名叫XeSS、也就是Xe超采樣的技術。它的本質是一種圖像升級技術,可以通過充分地提取和利用已有的圖像信息,去預測未知的信息,而不是通過渲染來精確計算。這樣既能保證幀率,又能大幅提升分辨率。
這里的圖像信息,來源主要有兩個 :一個是相鄰像素點中蘊藏的、空間維度的信息;另一個是多幀圖片展示出的動態(tài)過程中的時間維度的信息。神經(jīng)網(wǎng)絡模型利用這兩種信息,對像素的細節(jié)進行重構,在有效地縮短了處理時間的前提下一樣能夠得到接近于渲染效果的高分辨率畫面。
回到我們做菜的例子,AI就像是一顆"濃湯寶",讓大廚能夠只花煮一棵白菜的時間便料理出如假包換的國宴口味。
還記不記得前面提到Xe里集成的AI矩陣引擎,它們也正是為了支持像XeSS這樣技術的應用。
在年初的CES上,英特爾給出了一段demo,對比了運行于英特爾銳炫顯卡上的《裂縫破壞者》這款游戲在XeSS開啟前與開啟后的畫面。雖然我們沒有拿到定量的對比數(shù)據(jù),但是XeSS在豐富畫面細節(jié)方面的效果確實是肉眼可見的。
目前,支持XeSS技術的游戲還有《殺手3》、《死亡擱淺》等等大作,英特爾也在緊鑼密鼓地與多家游戲工作室合作開發(fā)游戲與引擎。
和友商的DLSS技術相比,XeSS還放了一個大招,那就是開源支持DP4a指令集的版本以及SDK。這意味著,我們可以期待在未來看到大量的硬件平臺都能采用并受益于XeSS技術:不管是獨顯還是集顯、來自英偉達還是AMD,只要硬件支持DP4a指令集就可以使用這種基于AI的超采樣技術。
我覺得這樣開放的態(tài)度會是開發(fā)者和用戶都樂于看到的,而這也很可能成為XeSS這位后浪與DLSS這位老師傅分庭抗禮,甚至是后來居上的關鍵一招。
百寶箱:DeepLink
前面說的都是針對Arc GPU本身的優(yōu)化,但別忘了英特爾還有12代CPU、還有CPU上的集顯。為了充分利用所有硬件的性能,英特爾還提出了一個名叫Deep Link 的技術。
事實上它并不是具體某種單一的技術,而是包含了一系列技術在內(nèi)的軟件架構,目的是把系統(tǒng)中不同的處理器和硬件協(xié)調起來、讓它們以整體的思維去完成處理任務,從而更充分地釋放出所有硬件的性能。
你可以把它想象成哆啦A夢的口袋,里面有各種解決問題的道具。
游戲是GPU的主戰(zhàn)場,但GPU也同樣可以用在很多領域,除了你們想的那個(wakuang),還有很多創(chuàng)作類的工作也離不開GPU。很多人都認為視頻剪輯只是少數(shù)人的需求,但現(xiàn)在越來越多的人做UP主,網(wǎng)上視頻內(nèi)容越來越多,背后其實都是對視頻編輯渲染算力的需求。
但是視頻渲染導出的時候,需要執(zhí)行大量的編碼任務,所以每次都要等很久。但在傳統(tǒng)的系統(tǒng)中,即使配備有多個GPU,編碼任務往往只會交給其中一個,這顯然是對硬件資源的浪費。所以英特爾Deep Link這個大口袋里,就有一個名叫HyperEncode超編碼的技術,它可以把編碼工作將被自動地分配給多個GPU。
比如你的電腦上有一個Iris集成顯卡和一張Arc獨立顯卡,通常情況下編碼任務會交給獨顯完成,此時集顯沒事做。但開啟超編碼之后,集顯和獨顯同時高負荷運行。通過兩者的協(xié)同工作,編碼速度提升了約1.4倍。
除了HyperEncode之外,DeepLink還有一個名叫"動態(tài)功率共享(Dynamic Power Share)"技術。也就是根據(jù)實際的復雜,分配給CPU 和GPU的功率將處于一個動態(tài)變化的過程中,從而實現(xiàn)整個系統(tǒng)的性能的最優(yōu)化。
總的來說,Deep Link的目標就是系統(tǒng)中所有硬件的深度連接,避免單打獨斗,而是以整體的思維去完成運算任務。在單個芯片的性能提升到極限之后,進行多個芯片的協(xié)同優(yōu)化就成了非常自然的選擇。
從GPU,看英特爾的破局之路
我知道對于顯卡,特別是對于高性能的游戲顯卡,絕大部分人可能并不關心技術。特別是在一卡難求的大環(huán)境下,英特爾進軍獨立顯卡業(yè)務,其實抓住了很好的時機。
他并不需要一上來就提供完美的產(chǎn)品,而是可以根據(jù)當前市場的痛點,給消費者提供價格公道性能夠用的產(chǎn)品就可以了。然后不斷迭代,并且一步一步構建起自己的生態(tài),比如前面說的DP4a的開源,都符合這個思路。
值得一提的是,ARC由臺積電6納米工藝代工,很多人會有產(chǎn)能的擔憂。但英特爾的這步棋走的有點絕,一方面繼續(xù)擠壓了友商的產(chǎn)能,另一方面自己的產(chǎn)能也在不斷鋪開,之前的文章也分析過,IDM2.0已經(jīng)成了英特爾最重要的戰(zhàn)略方向。
這有點像玩星際的時候的偷礦戰(zhàn)術,玩到最后大家才發(fā)現(xiàn),產(chǎn)能和資源才是最終的王道。
(注:本文僅代表作者個人觀點,與任職單位無關。)