IDC 預測,到 2025 年,全球將有 416 億臺物聯(lián)網設備,并將產生 79.4 zettabytes(zb)的數據。雖然數據被看作未來的石油,但是同樣也需要強大的算力將無序的數據加以提取,形成有用信息,才能給用戶帶來價值。由于數據在源源不斷產生,只憑借 CPU 進行計算已經遠遠無法滿足需求,于是設計人員開始采用異構架構為數據中心加速,FPGA 發(fā)揮越來越大的作用。
作為 FPGA 領域的獨角獸,賽靈思非常明白自身優(yōu)勢,去年 3 月,新任 CEO Victor peng 宣布公司從器件到平臺轉型的三大策略,其中非常重要的一項就是數據中心優(yōu)先策略。去年 10 月,賽靈思推出了 ACAP 系列產品,同時推出了面向數據中心加速的第一款自適應計算加速卡 Alveo 平臺,11 月又快速推出了 Alveo 系列 U280 產品,但是賽靈思的愿景是不僅加速計算,同時加速網絡和存儲,因此近期在原來的基礎上又推出了 Alveo U50,將數據中心優(yōu)先策略再次向前推進。
據賽靈思數據中心業(yè)務部產品規(guī)劃和市場營銷總監(jiān) Jamon Bowen 介紹,Alveo U50 卡是業(yè)界首款支持第四代 PCIe ( PCIe Gen 4)的加速卡 ,特別為單個可重配置的 FPGA 平臺就能大幅加速各種不同的關鍵計算、網絡和存儲工作負載而設計。相對 U280 擅長計算,U50 在計算方面較弱,在網絡和存儲方面更強。
Alveo U50 具有三大特點:小尺寸、低功耗、可編程。
由于采用 UltraScale+的架構,集成了超高帶寬的 HBM2 存儲器技術,率先使用半高半長的外形,Alveo U50 尺寸大幅度縮?。煌ㄟ^支持標準的 PCIe 服務器插槽和僅相當于現(xiàn)有 Alveo 卡 1/3 的功耗,Alveo U50 大幅擴展了自適應加速技術可以部署的范圍,從而為要求嚴苛的計算、網絡與存儲工作負載帶來了前所未有的高吞吐量與低延時。8GB HBM2 提供了超過 400Gbps 的數據傳輸速度, QSFP 端口提供了高達 100 Gbps 的網絡連接。此外,高速網絡 I/O 還支持各種前沿應用,如 NVMe-oF?解決方案(NVM Express over Fabrics?),解耦計算存儲和專業(yè)金融服務應用。
Jamon Bowen 強調,U50 采用的是第四代 PCIe 即插即用型卡,這是市面上最前沿的技術,很多服務器剛剛開始支持這一標準,這種卡對于存儲加速非常關鍵。
U50 的重點是計算、網絡和存儲加速。Jamon Bowen 對這一定位的解釋是,現(xiàn)在的總體趨勢是越來越多的應用需要專用架構,要求硬件和算法能夠匹配,從而達到最佳運行效果。每一代網絡都不盡相同,而且網絡上的數據也不同,數據運行的要求也不盡相同。這就需要硬件能夠跟上專用架構的要求,同時還要提升性能,硬件能夠發(fā)揮它最優(yōu)的功能。
在數據中心客戶經常抱怨器件編程非常困難,Alveo 具有開放的平臺和環(huán)境,簡化了硬件編程的程序,能夠通過公共平臺進行加速,讓開發(fā)者便捷地使用這一平臺。Jamon Bowen 解釋,隨著越來越多開發(fā)者使用該平臺,我們會加入更多產品,實現(xiàn)原來只有在軟件部分才有可能的硬件 IP 的靈活應變能力。解決包括數據分析、視頻與圖象處理、機器學習、生命科學和金融計算等領域地問題。
對比 CPU、GPU,性能大幅度提升
加速器性能到底提升多少?對比一下就會一目了然。賽靈思官方和 CPU 以及 GPU 進行了對比。
語音翻譯應用加速
在語音翻譯應用中,CPU 和 GPU 無法實現(xiàn)高吞吐量與低時延推斷性能,可以看出 Alveo U50 是英偉達 GPU T4 地 10 倍。
數據分析加速應用
在數據分析應用中,數據庫查詢加速運行 TPC-H Query5 體系,對比英特爾的多核處理器 XEON 系列,加入 Alveo U50 的運行速度提升 4 倍,而且其尺寸較小可以加入多張卡,進行多倍加速。
金融建模應用
對比英特爾的 CPU 和英偉達的 GPU,可以看出,一塊 Alveo U50 性能是對應 CPU 和 GPU 的 20 倍,值得強調的是成本只有 GPU 的一半。Jamon Bowen 解釋,我們一直在開發(fā)計算庫,尤其是量化的開發(fā)者能夠在 Alveo 當中使用這些數據函數進行最優(yōu)化的編碼,同時能夠在我們這個平臺上完成其他的應用設計,建立這樣一個模型。這個對于計算加速來說是非常重要的擴展,尤其能夠把所有的數學函數都吸收進來。
電子貿易業(yè)務
金融界有一個從技術到交易的衡量指標,就是看你獲得市場數據之后下單完成交易之間需要多長時間。如果用戶使用 U50,時延低于 500 納秒,且性能穩(wěn)定。相對于 CPU,U50 的性能在時間上是 CPU 的 20 倍。Jamon Bowen 認為,使用 Alveo 進行加速,能夠在很多網絡端口完成應用的加速,而所需的時間往往是 CPU 剛剛開始進行對話的時間。
計算存儲應用
在計算存儲應用中,過去字節(jié)都傳輸到內存才能壓縮、解壓縮等處理,流程非常復雜,采用 Alveo U50 平臺,壓縮、解壓縮、擦除編碼、加密都在同一個平臺上繼續(xù)寧加速,是 CPU 性能的 20 倍。
再看 Hadoop 加速應用,如果要做高性能的計算,數據無法壓縮,基礎設施需要擴大一倍,而且還需要更多的存儲帶寬。如果采用 U50 既可以保留帶寬也可以進行壓縮,而且存儲空間和帶寬只需要原來的一半。因此部署成本只有原來的一半,在壓縮的同時性能不會受到損失。
對比兩個雙 CPU 的服務器和搭載兩個 Alveo U50 的 Alveo 服務器,可以看出,前者 192TB,每個節(jié)點壓縮吞吐量 1GB/s,后者 96TB(192TB 有效),每個節(jié)點壓縮吞吐量 20GB/s。
為什么賽靈思的硬件運行速度改善如此之大?Jamon Bowen 的解釋是,要優(yōu)化性能,要有定制的數據途徑,還要有定制的進度。具備這兩個條件后,應用才能夠非常順利的進行處理,而無需不斷地進到一些存儲的層級,經過非常復雜的流程就能直接處理。賽靈思在這方面能夠給硬件加速,可以通過再編程的方式來調整一些設置。
異構計算是數據中心的未來,很多公司在擁抱加速架構為核心的解決方案,U50 不僅能夠提供硬件加速,而且還具有靈活應變的特性。Jamon Bowen 認為,壓縮技術日新月異,有 ZS、ZT、LZ,還有超大規(guī)??蛻舭l(fā)布一些新的壓縮算法。我們能夠在硬件層面上進行加速,還能夠在硬件層面上實現(xiàn)可編程。一旦有了新的標準計算算法迭代之后,賽靈思就能夠充分利用 FPGA 的靈活性,在我們平臺上迅速部署,其它競爭對手很難做到。
與非網原創(chuàng)內容,未經允許,不得轉載!