无码99精品视频在线观看,少妇p毛又多水又大又黑

從 Falcon Mesa 到 Agilex

英特爾的 10 納米 FPGA 終于來了。在四月剛剛結(jié)束的英特爾“以數(shù)據(jù)為中心創(chuàng)新日”中，曾經(jīng)代號為 Falcon Mesa 的英特爾最新一代 10 納米 FPGA 正式亮相，并正式命名為 Agilex。

（圖片來自英特爾）

在本文中，老石將對 Agilex 的六大核心技術做全面的深入解讀。欲獲取 Agilex FPGA 的技術白皮書、器件綜述等詳細技術文檔，請在公眾號“老石談芯”后臺回復“Agilex”或“10 納米”。

靈活+敏捷=Agilex FPGA

Agilex 是 Agile（敏捷）和 Flexible（靈活）的合二為一，而這兩個特點正是現(xiàn)代 FPGA 技術最為核心的兩大要點。

具體來說，“靈活性”就是指可編程性，它基于 FPGA 的核心技術——可編程邏輯陣列，可以靈活的針對不同應用場景進行編程，并改變 FPGA 的邏輯結(jié)構和功能。

“敏捷性”指的是異構，它既可以是不同邏輯單元之間的異構，也可以是不同工藝的異構，或者兩者兼而有之。如下圖所示，不同類型的 IP 所對應的成熟工藝與迭代時間都不盡相同。只有采用異構架構，才能充分發(fā)揮不同 IP 和不同工藝節(jié)點的優(yōu)勢，取長補短，在性能和成本上取得良好的平衡。因此異構 FPGA 也是目前和未來業(yè)界發(fā)展和研究的主要方向。

（圖片來自英特爾）

在這個大背景下，Agilex FPGA 應運而生。它既包含了傳統(tǒng) FPGA 靈活的可編程性，又結(jié)合了現(xiàn)代 FPGA 基于異構架構的敏捷性，因此能夠同時適用于眾多應用領域，并針對性的進行配置和快速迭代，如下圖所示。

（圖片來自英特爾）

與進化多年的 Stratix、Arria、Cyclone、Max 等 FPGA 產(chǎn)品系列相比，Agilex 是原 FPGA 巨頭 Altera 在 2015 年底被英特爾收購、并成為其可編程方案事業(yè)部（PSG）后正式推出的一個全新的 FPGA 系列。正因如此，Agilex 無疑被英特爾寄予了更多的期待。

在這些期待背后，離不開來自英特爾的核心技術的加持。而這也將是區(qū)分 Agilex 與它的前代產(chǎn)品、以及其他競爭對手的最主要的優(yōu)勢。具體來說，Agilex 遺傳自英特爾的核心競爭優(yōu)勢有以下六點。

英特爾 10 納米工藝

英特爾在半導體領域稱雄幾十年，靠的就是兩個獨門絕技：第一是眾所周知的 x86 架構，第二則是曾經(jīng)遙遙領先競爭對手的半導體制造工藝。這也促成了英特爾著名的“Tick-Tock”戰(zhàn)略，即架構和工藝的更新逐年交錯進行，同時還能保持處理器性能的穩(wěn)步增長。

不過，這家芯片巨頭在 10 納米工藝上遇到了阻礙。事實上，英特爾也曾預測 10 納米的研發(fā)會比之前耗時更久，如下圖所示，但可能沒有人想到會是這么久。

（圖片來自英特爾）

結(jié)果是，就在過去的一兩年中，曾經(jīng)被遠遠甩在身后的競爭者紛紛在十納米這個工藝節(jié)點完成了超車，臺積電和三星都逐漸將自家的十納米工藝投入量產(chǎn)。

終于，2019 年初痛定思痛的英特爾一口氣發(fā)布了四款基于 10 納米工藝的芯片產(chǎn)品，涵蓋了個人計算平臺、數(shù)據(jù)中心、5G 網(wǎng)絡等多個應用領域，并將最快于年底正式出貨量產(chǎn)。而這次發(fā)布的 Agilex FPGA，也正是基于英特爾 10 納米工藝的旗艦級 FPGA 產(chǎn)品。

對于芯片制程而言，在相同的工藝節(jié)點下，英特爾的工藝往往具有更優(yōu)異的性能，這也是業(yè)界公認的事實。一旦英特爾的十納米工藝達到穩(wěn)定并量產(chǎn)，預計將會比競爭對手帶來 20%~30%的性能和功耗優(yōu)勢，如下圖所示。

（圖片來自英特爾）

系統(tǒng)級 3D 芯片

系統(tǒng)級 3D 芯片的異構集成和封裝，也是英特爾的獨門秘籍之一。這其中主要有兩個主要技術，一個是 EMIB（嵌入式多管芯互聯(lián)橋接），用于提供多個異構晶片的高速互連；另一個則是 2019 年最新公布的 Foveros 3D 封裝技術，這在之前的文章中有過詳細闡述。

在 Agilex FPGA 中，使用了第二代 EMIB 技術，用以連接可編程邏輯陣列以及周圍的各類子芯片集（Chiplets）。與賽靈思采用的 SSI 技術相比，EMIB 有著比較明顯的優(yōu)勢。這主要是由于 EMIB 不需要引入額外的硅中介層，因此也不需要 SSI 技術中不可或缺的大量硅通孔，這樣顯著降低了系統(tǒng)的制造復雜度。同時不需要在中介層中使用長導線，因此降低了不同晶片間的傳輸延時，減少了信號的傳輸干擾。另外，在替換不同的子芯片集時更加容易，而無需重做整個芯片系統(tǒng)。

（圖片來自英特爾）

CXL：CPU 與 FPGA 互連的終極方案

當前，F(xiàn)PGA 的一個主要應用場景是在數(shù)據(jù)中心里作為 CPU 的硬件加速器，用來加速各類應用，如深度學習的模型訓練、金融計算、網(wǎng)絡功能卸載等等。

在數(shù)據(jù)中心的 CPU 領域，英特爾的 Xeon CPU 一直是絕對的最強王者。雖然大量競爭對手，比如 x86 陣營的 AMD，或者 ARM 陣營的高通等等，都不斷嘗試從中分一杯羹，但至少目前還沒有對英特爾的支配地位形成足夠的挑戰(zhàn)。

在這種情況下，作為數(shù)據(jù)中心加速器的 FPGA，首先需要考慮的就是與 Xeon CPU 的兼容性問題。很明顯，作為具有“純正血統(tǒng)”的 Agilex FPGA，從出生伊始就相比競爭對手占據(jù)了天時和地利。

緩存一致性問題一直是硬件加速器領域亟需解決的核心問題之一。而解決這個問題的主要方法，就是明確和普及 CPU 與硬件加速器之間的內(nèi)存互聯(lián)協(xié)議，就好比大家熟知的用于 CPU 和加速器通信的 PCIe 協(xié)議等等。

基于此，很多半導體與設備廠商發(fā)起了多種多樣的緩存一致性協(xié)議，具有代表性的包括 IBM 發(fā)起的 OpenCAPI，以及 AMD、高通等公司發(fā)起的 CCIX 等，見下圖。每個協(xié)議陣營都包含了 CPU 廠商，以及加速器（FPGA 或網(wǎng)絡加速器等）廠商?？梢钥吹?，英特爾并沒有在這兩個陣營中的任何一個。

在今年 3 月，英特爾宣布聯(lián)合微軟、阿里、思科、戴爾 EMC、Facebook、谷歌、惠普企業(yè) HPE 和華為等公司，共同組件一個全新的互聯(lián)標準，名為 Compute Express Link – CXL，如下圖所示。

欲獲取 CXL 協(xié)議的技術白皮書，請在公眾號“老石談芯”后臺回復“Agilex”或“10 納米”。

有趣的是，與 OpenCAPI 和 CCIX 的主要發(fā)起公司多為半導體公司不同，CXL 的發(fā)起者中有四個互聯(lián)網(wǎng)巨頭、兩個服務器設備制造商、兩個網(wǎng)絡設備制造商。這種多元性立體的呈現(xiàn)了 CXL 的目標應用領域：互聯(lián)網(wǎng)數(shù)據(jù)中心、通信基礎設施、云計算與云服務等等。而這些領域也正是 FPGA 大顯身手的重要平臺。

對于 Agilex FPGA，它將原生支持 CXL 協(xié)議，并將成為業(yè)界首款面向 Xeon 可擴展處理器的內(nèi)存一致性硬件加速器。值得注意的是，CXL 協(xié)議基于 PCIe 設計和擴展，如下圖所示，這樣可以完全復用 PCIe PHY 和通道，與其他類似的協(xié)議相比有著明顯的易用性。

因此，Agilex 對 CXL 的原生支持，勢必會在“天時”和“地利”的基礎上，為它在數(shù)據(jù)中心的廣泛使用帶來巨大的“人和”優(yōu)勢。

（圖片來自英特爾）

可變精度 DSP

之前的文章曾經(jīng)多次介紹過，F(xiàn)PGA 在人工智能應用中的最大優(yōu)點之一就是可以采用可變精度的字長表示和數(shù)學運算，從而帶來巨大的性能提升。在現(xiàn)有的英特爾 FPGA 中，已經(jīng)可以支持固化的定點數(shù)以及 FP32 的 DSP 運算。

在 Agilex FPGA 中，又擴展支持了 FP8、FP16 和 BFLOAT16 的 DSP 運算，同時也增加了 9x9 乘法器的數(shù)量，以及乘法器的配置方式等等，一些常用的 DSP 配置結(jié)構如下圖所示。這些針對 AI 應用的革新，也會極大提升未來 FPGA 在 AI 領域的使用范圍。

增強版 HyperFlex 架構

在老石之前的文章《賽靈思下一代計算平臺 ACAP 技術細節(jié)全揭密》中曾經(jīng)詳細分析過，賽靈思新一代 ACAP 架構引入了名為“Imux 寄存器”的新結(jié)構，并且很明顯就是對標英特爾目前在 Stratix 10 上使用的 HyperFlex 架構，如下圖。

（圖片來自英特爾）

HyperFlex 的主要思想就是在 FPGA 的布線網(wǎng)絡上，加入很多名為 hyper-register 的小型寄存器，這樣可以把原本比較長的時序路徑分割成多個較短的路徑，從而達到頻率提升的作用，如下圖所示。

（圖片來自英特爾）

賽靈思的 Imux 寄存器與 HyperFlex 的海量寄存器架構有著明顯不同。一個主要的原因是在很多情況下，不是所有的 hyper-register 都會被使用，因此每個寄存器都需要一個 2：1 選擇器，以控制 hyper-register 的使用，見下圖。然而，這樣的架構反而會帶來比較大的額外延時，同時對 FPGA 設計工具中的 retiming 和自動流水線算法提出了更多的要求。

（圖片來自英特爾）

為了解決這個問題，賽靈思的 Imux 沒有在全部布線資源上都設置寄存器，因此引入的額外延時會更小。在英特爾的 Agilex FPGA 中，這個問題得到了針對性的補強，方法其實非常簡單粗暴，就是盡量縮小 hyper-register 的旁路路徑的延時（高達 40%），如下圖。這樣當某些 hyper-register 不使用時，其對應的系統(tǒng)延時可以達到導線級的標準。

（圖片來自英特爾）

OneAPI：英特爾的雄心

在 2018 年末的英特爾架構日上，英特爾的芯片首席架構師 Raja Koduri 對外公布了公司正在著力研發(fā)的一件“大事”：一個名為 OneAPI 的軟件編程框架。

（圖片來自英特爾）

顧名思義，OneAPI 將會為英特爾的 CPU、GPU、FPGA、以及各種 AI 和其他應用的硬件加速器提供一個統(tǒng)一的編程接口，使得開發(fā)者可以隨意在底層硬件之間進行切換和優(yōu)化。OneAPI 的口號是“晶體管一個也不能少”，這也很好的總結(jié)了 OneAPI 的終極目標。

除了編程接口外，OneAPI 想必還會包含一個完整的開發(fā)環(huán)境、庫、驅(qū)動等必要的要素，它代表了英特爾最大的野心，就是將旗下所有的芯片和硬件產(chǎn)品通過這個軟件系統(tǒng)連接起來，并實現(xiàn)無縫切換。同時，可以預見英特爾還將圍繞這個軟件系統(tǒng)逐步構建生態(tài)環(huán)境。因此這個系統(tǒng)一旦實現(xiàn)，將成為其他任何競爭對手無法匹敵的優(yōu)勢。

（圖片來自英特爾）

對于新發(fā)布的 Agilex FPGA，它也將成為首款支持 OneAPI 的英特爾 FPGA 產(chǎn)品，見下圖。

（圖片來自英特爾）

結(jié)語

英特爾在發(fā)布會上宣布，Agilex FPGA 將有 F、I、M 三個產(chǎn)品系列，見下圖，并最早將于今年第三季度交付到客戶手中進行前期評估。

（圖片來自英特爾）

老石相信，這款全副武裝了英特爾各種黑科技的最高段位 FPGA，必將對當前的 FPGA 市場帶來一波最強的沖擊。

欲獲取 Agilex FPGA 的技術白皮書、器件綜述等詳細技術文檔，請在公眾號“老石談芯”后臺回復“Agilex”或“10 納米”。