從 Falcon Mesa 到 Agilex
英特爾的 10 納米 FPGA 終于來了。在四月剛剛結(jié)束的英特爾“以數(shù)據(jù)為中心創(chuàng)新日”中,曾經(jīng)代號為 Falcon Mesa 的英特爾最新一代 10 納米 FPGA 正式亮相,并正式命名為 Agilex。
(圖片來自英特爾)
在本文中,老石將對 Agilex 的六大核心技術做全面的深入解讀。欲獲取 Agilex FPGA 的技術白皮書、器件綜述等詳細技術文檔,請在公眾號“老石談芯”后臺回復“Agilex”或“10 納米”。
靈活+敏捷=Agilex FPGA
Agilex 是 Agile(敏捷)和 Flexible(靈活)的合二為一,而這兩個特點正是現(xiàn)代 FPGA 技術最為核心的兩大要點。
具體來說,“靈活性”就是指可編程性,它基于 FPGA 的核心技術——可編程邏輯陣列,可以靈活的針對不同應用場景進行編程,并改變 FPGA 的邏輯結(jié)構和功能。
“敏捷性”指的是異構,它既可以是不同邏輯單元之間的異構,也可以是不同工藝的異構,或者兩者兼而有之。如下圖所示,不同類型的 IP 所對應的成熟工藝與迭代時間都不盡相同。只有采用異構架構,才能充分發(fā)揮不同 IP 和不同工藝節(jié)點的優(yōu)勢,取長補短,在性能和成本上取得良好的平衡。因此異構 FPGA 也是目前和未來業(yè)界發(fā)展和研究的主要方向。
(圖片來自英特爾)
在這個大背景下,Agilex FPGA 應運而生。它既包含了傳統(tǒng) FPGA 靈活的可編程性,又結(jié)合了現(xiàn)代 FPGA 基于異構架構的敏捷性,因此能夠同時適用于眾多應用領域,并針對性的進行配置和快速迭代,如下圖所示。
(圖片來自英特爾)
與進化多年的 Stratix、Arria、Cyclone、Max 等 FPGA 產(chǎn)品系列相比,Agilex 是原 FPGA 巨頭 Altera 在 2015 年底被英特爾收購、并成為其可編程方案事業(yè)部(PSG)后正式推出的一個全新的 FPGA 系列。正因如此,Agilex 無疑被英特爾寄予了更多的期待。
在這些期待背后,離不開來自英特爾的核心技術的加持。而這也將是區(qū)分 Agilex 與它的前代產(chǎn)品、以及其他競爭對手的最主要的優(yōu)勢。具體來說,Agilex 遺傳自英特爾的核心競爭優(yōu)勢有以下六點。
英特爾 10 納米工藝
英特爾在半導體領域稱雄幾十年,靠的就是兩個獨門絕技:第一是眾所周知的 x86 架構,第二則是曾經(jīng)遙遙領先競爭對手的半導體制造工藝。這也促成了英特爾著名的“Tick-Tock”戰(zhàn)略,即架構和工藝的更新逐年交錯進行,同時還能保持處理器性能的穩(wěn)步增長。
不過,這家芯片巨頭在 10 納米工藝上遇到了阻礙。事實上,英特爾也曾預測 10 納米的研發(fā)會比之前耗時更久,如下圖所示,但可能沒有人想到會是這么久。
(圖片來自英特爾)
結(jié)果是,就在過去的一兩年中,曾經(jīng)被遠遠甩在身后的競爭者紛紛在十納米這個工藝節(jié)點完成了超車,臺積電和三星都逐漸將自家的十納米工藝投入量產(chǎn)。
終于,2019 年初痛定思痛的英特爾一口氣發(fā)布了四款基于 10 納米工藝的芯片產(chǎn)品,涵蓋了個人計算平臺、數(shù)據(jù)中心、5G 網(wǎng)絡等多個應用領域,并將最快于年底正式出貨量產(chǎn)。而這次發(fā)布的 Agilex FPGA,也正是基于英特爾 10 納米工藝的旗艦級 FPGA 產(chǎn)品。
對于芯片制程而言,在相同的工藝節(jié)點下,英特爾的工藝往往具有更優(yōu)異的性能,這也是業(yè)界公認的事實。一旦英特爾的十納米工藝達到穩(wěn)定并量產(chǎn),預計將會比競爭對手帶來 20%~30%的性能和功耗優(yōu)勢,如下圖所示。
(圖片來自英特爾)
系統(tǒng)級 3D 芯片
系統(tǒng)級 3D 芯片的異構集成和封裝,也是英特爾的獨門秘籍之一。這其中主要有兩個主要技術,一個是 EMIB(嵌入式多管芯互聯(lián)橋接),用于提供多個異構晶片的高速互連;另一個則是 2019 年最新公布的 Foveros 3D 封裝技術,這在之前的文章中有過詳細闡述。
在 Agilex FPGA 中,使用了第二代 EMIB 技術,用以連接可編程邏輯陣列以及周圍的各類子芯片集(Chiplets)。與賽靈思采用的 SSI 技術相比,EMIB 有著比較明顯的優(yōu)勢。這主要是由于 EMIB 不需要引入額外的硅中介層,因此也不需要 SSI 技術中不可或缺的大量硅通孔,這樣顯著降低了系統(tǒng)的制造復雜度。同時不需要在中介層中使用長導線,因此降低了不同晶片間的傳輸延時,減少了信號的傳輸干擾。另外,在替換不同的子芯片集時更加容易,而無需重做整個芯片系統(tǒng)。
(圖片來自英特爾)
CXL:CPU 與 FPGA 互連的終極方案
在數(shù)據(jù)中心的 CPU 領域,英特爾的 Xeon CPU 一直是絕對的最強王者。雖然大量競爭對手,比如 x86 陣營的 AMD,或者 ARM 陣營的高通等等,都不斷嘗試從中分一杯羹,但至少目前還沒有對英特爾的支配地位形成足夠的挑戰(zhàn)。
在這種情況下,作為數(shù)據(jù)中心加速器的 FPGA,首先需要考慮的就是與 Xeon CPU 的兼容性問題。很明顯,作為具有“純正血統(tǒng)”的 Agilex FPGA,從出生伊始就相比競爭對手占據(jù)了天時和地利。
緩存一致性問題一直是硬件加速器領域亟需解決的核心問題之一。而解決這個問題的主要方法,就是明確和普及 CPU 與硬件加速器之間的內(nèi)存互聯(lián)協(xié)議,就好比大家熟知的用于 CPU 和加速器通信的 PCIe 協(xié)議等等。
基于此,很多半導體與設備廠商發(fā)起了多種多樣的緩存一致性協(xié)議,具有代表性的包括 IBM 發(fā)起的 OpenCAPI,以及 AMD、高通等公司發(fā)起的 CCIX 等,見下圖。每個協(xié)議陣營都包含了 CPU 廠商,以及加速器(FPGA 或網(wǎng)絡加速器等)廠商??梢钥吹?,英特爾并沒有在這兩個陣營中的任何一個。
在今年 3 月,英特爾宣布聯(lián)合微軟、阿里、思科、戴爾 EMC、Facebook、谷歌、惠普企業(yè) HPE 和華為等公司,共同組件一個全新的互聯(lián)標準,名為 Compute Express Link – CXL,如下圖所示。
欲獲取 CXL 協(xié)議的技術白皮書,請在公眾號“老石談芯”后臺回復“Agilex”或“10 納米”。
有趣的是,與 OpenCAPI 和 CCIX 的主要發(fā)起公司多為半導體公司不同,CXL 的發(fā)起者中有四個互聯(lián)網(wǎng)巨頭、兩個服務器設備制造商、兩個網(wǎng)絡設備制造商。這種多元性立體的呈現(xiàn)了 CXL 的目標應用領域:互聯(lián)網(wǎng)數(shù)據(jù)中心、通信基礎設施、云計算與云服務等等。而這些領域也正是 FPGA 大顯身手的重要平臺。
對于 Agilex FPGA,它將原生支持 CXL 協(xié)議,并將成為業(yè)界首款面向 Xeon 可擴展處理器的內(nèi)存一致性硬件加速器。值得注意的是,CXL 協(xié)議基于 PCIe 設計和擴展,如下圖所示,這樣可以完全復用 PCIe PHY 和通道,與其他類似的協(xié)議相比有著明顯的易用性。
因此,Agilex 對 CXL 的原生支持,勢必會在“天時”和“地利”的基礎上,為它在數(shù)據(jù)中心的廣泛使用帶來巨大的“人和”優(yōu)勢。
(圖片來自英特爾)
可變精度 DSP
之前的文章曾經(jīng)多次介紹過,F(xiàn)PGA 在人工智能應用中的最大優(yōu)點之一就是可以采用可變精度的字長表示和數(shù)學運算,從而帶來巨大的性能提升。在現(xiàn)有的英特爾 FPGA 中,已經(jīng)可以支持固化的定點數(shù)以及 FP32 的 DSP 運算。
在 Agilex FPGA 中,又擴展支持了 FP8、FP16 和 BFLOAT16 的 DSP 運算,同時也增加了 9x9 乘法器的數(shù)量,以及乘法器的配置方式等等,一些常用的 DSP 配置結(jié)構如下圖所示。這些針對 AI 應用的革新,也會極大提升未來 FPGA 在 AI 領域的使用范圍。
增強版 HyperFlex 架構
在老石之前的文章《賽靈思下一代計算平臺 ACAP 技術細節(jié)全揭密》中曾經(jīng)詳細分析過,賽靈思新一代 ACAP 架構引入了名為“Imux 寄存器”的新結(jié)構,并且很明顯就是對標英特爾目前在 Stratix 10 上使用的 HyperFlex 架構,如下圖。
(圖片來自英特爾)
HyperFlex 的主要思想就是在 FPGA 的布線網(wǎng)絡上,加入很多名為 hyper-register 的小型寄存器,這樣可以把原本比較長的時序路徑分割成多個較短的路徑,從而達到頻率提升的作用,如下圖所示。
(圖片來自英特爾)
賽靈思的 Imux 寄存器與 HyperFlex 的海量寄存器架構有著明顯不同。一個主要的原因是在很多情況下,不是所有的 hyper-register 都會被使用,因此每個寄存器都需要一個 2:1 選擇器,以控制 hyper-register 的使用,見下圖。然而,這樣的架構反而會帶來比較大的額外延時,同時對 FPGA 設計工具中的 retiming 和自動流水線算法提出了更多的要求。
(圖片來自英特爾)
為了解決這個問題,賽靈思的 Imux 沒有在全部布線資源上都設置寄存器,因此引入的額外延時會更小。在英特爾的 Agilex FPGA 中,這個問題得到了針對性的補強,方法其實非常簡單粗暴,就是盡量縮小 hyper-register 的旁路路徑的延時(高達 40%),如下圖。這樣當某些 hyper-register 不使用時,其對應的系統(tǒng)延時可以達到導線級的標準。
(圖片來自英特爾)
OneAPI:英特爾的雄心
在 2018 年末的英特爾架構日上,英特爾的芯片首席架構師 Raja Koduri 對外公布了公司正在著力研發(fā)的一件“大事”:一個名為 OneAPI 的軟件編程框架。
(圖片來自英特爾)
顧名思義,OneAPI 將會為英特爾的 CPU、GPU、FPGA、以及各種 AI 和其他應用的硬件加速器提供一個統(tǒng)一的編程接口,使得開發(fā)者可以隨意在底層硬件之間進行切換和優(yōu)化。OneAPI 的口號是“晶體管一個也不能少”,這也很好的總結(jié)了 OneAPI 的終極目標。
除了編程接口外,OneAPI 想必還會包含一個完整的開發(fā)環(huán)境、庫、驅(qū)動等必要的要素,它代表了英特爾最大的野心,就是將旗下所有的芯片和硬件產(chǎn)品通過這個軟件系統(tǒng)連接起來,并實現(xiàn)無縫切換。同時,可以預見英特爾還將圍繞這個軟件系統(tǒng)逐步構建生態(tài)環(huán)境。因此這個系統(tǒng)一旦實現(xiàn),將成為其他任何競爭對手無法匹敵的優(yōu)勢。
(圖片來自英特爾)
對于新發(fā)布的 Agilex FPGA,它也將成為首款支持 OneAPI 的英特爾 FPGA 產(chǎn)品,見下圖。
(圖片來自英特爾)
結(jié)語
英特爾在發(fā)布會上宣布,Agilex FPGA 將有 F、I、M 三個產(chǎn)品系列,見下圖,并最早將于今年第三季度交付到客戶手中進行前期評估。
(圖片來自英特爾)
老石相信,這款全副武裝了英特爾各種黑科技的最高段位 FPGA,必將對當前的 FPGA 市場帶來一波最強的沖擊。
欲獲取 Agilex FPGA 的技術白皮書、器件綜述等詳細技術文檔,請在公眾號“老石談芯”后臺回復“Agilex”或“10 納米”。
閱讀全文
版權聲明:與非網(wǎng)經(jīng)原作者授權轉(zhuǎn)載,版權屬于原作者。文章觀點僅代表作者本人,不代表與非網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有侵權或者其他問題,請聯(lián)系本站作侵刪。
侵權投訴
人工客服
(售后/吐槽/合作/交友)
(售后/吐槽/合作/交友)