加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 專為 HPC 和大數(shù)據(jù)應(yīng)用打造
    • HPC三大用例
    • 高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢何在?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

賽靈思推出其史上最強(qiáng)大FPGA加速器卡,硬剛CPU、GPU

2021/11/17
1550
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2021國際超算大會(SC21)期間,賽靈思宣布推出一款數(shù)據(jù)中心加速器卡 Alveo U55C,以及一款基于標(biāo)準(zhǔn)、API-driven 的集群解決方案,用于大規(guī)模部署 FPGA。這款加速器卡對賽靈思的特別意義在于:它是賽靈思史上最強(qiáng)大的Alveo加速器卡,專為HPC和大數(shù)據(jù)工作負(fù)載而構(gòu)建,能夠提供 Alveo 加速器產(chǎn)品系列中的最高計(jì)算密度和 HBM 容量。突破性的 HPC 集群解決方案與簡化的可編程性,支持在現(xiàn)有客戶基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)上實(shí)現(xiàn)大規(guī)模性能擴(kuò)展。

賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算(HPC)產(chǎn)品經(jīng)理Nathan Chang在接受與非網(wǎng)采訪時(shí)表示,高性能計(jì)算正面臨著百億億級(exascale)挑戰(zhàn),主要體現(xiàn)在三方面:第一,隨著高性能計(jì)算邁向百億億級大關(guān),功耗即將成為下一難關(guān)。第二,典型的高性能計(jì)算架構(gòu)再難以提供可接受的單位功耗性能,這主要是因?yàn)?a class="article-link" target="_blank" href="/baike/1552575.html">CPU和GPU采用的馮·諾依曼架構(gòu)存在局限性,數(shù)據(jù)遷移帶來的挑戰(zhàn)導(dǎo)致性能下降。為了最大限度提升性能,就必須在函數(shù)的轉(zhuǎn)換中準(zhǔn)備好數(shù)據(jù),而僵化的存儲器層級導(dǎo)致效率低下。第三,伴隨以上問題,不可避免會浪費(fèi)時(shí)序周期、降低工作效率、增大功耗。

賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算(HPC)產(chǎn)品經(jīng)理? Nathan Chang

?

他強(qiáng)調(diào),整個(gè)工作負(fù)載遷移和演變的方向,主要是受到存儲器的帶寬限制。如果沒有辦法解決存儲器帶寬的瓶頸,就沒辦法利用數(shù)據(jù)中心的規(guī)模。

正因如此,Alveo U55C專為大數(shù)據(jù)和高性能計(jì)算工作負(fù)載構(gòu)建,它能夠?qū)崿F(xiàn)更高的數(shù)據(jù)流水線并行性、帶來優(yōu)化的存儲器管理、優(yōu)化整個(gè)流水線的數(shù)據(jù)遷移,以及實(shí)現(xiàn)出色的單位功耗性能。

賽靈思執(zhí)行副總裁兼數(shù)據(jù)中心事業(yè)部總經(jīng)理Salil Raje表示:“我們引入了基于標(biāo)準(zhǔn)的方法,可以支持客戶利用現(xiàn)有的基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)創(chuàng)建 Alveo HPC 集群。借助這一方法,我們正將這些主要優(yōu)勢大規(guī)模應(yīng)用于任意數(shù)據(jù)中心。這是實(shí)現(xiàn) Alveo 和自適應(yīng)計(jì)算在數(shù)據(jù)中心更廣泛應(yīng)用的一次重大飛躍?!?/p>

專為 HPC 和大數(shù)據(jù)應(yīng)用打造

Alveo U55C卡采用單插槽、全高半長(FHHL)外形尺寸,最大功耗低至150W。與前一代雙插槽Alveo U280卡相比,Alveo U55C提供了更高的計(jì)算密度,還將HBM2容量翻倍至16GB。U55C以更小的外形尺寸提供了更高的算力,有助于創(chuàng)建基于 Alveo 加速器的密集集群。它專為需要性能擴(kuò)展的高密度流式數(shù)據(jù)、高 I/O 數(shù)學(xué)和大型計(jì)算問題而開發(fā),例如大數(shù)據(jù)分析和 AI 應(yīng)用。

“Alveo U55C非常重要的特性包括:第一就是采用RoCE v2、DCBx、MPI,在現(xiàn)有網(wǎng)絡(luò)和基礎(chǔ)架構(gòu)上,為數(shù)據(jù)中心提供了尖端的計(jì)算集群;第二,應(yīng)用開發(fā)人員可以利用Vitis平臺上已有的一些API、庫以及MPI,來擴(kuò)展工作負(fù)載”, Nathan Chang總結(jié)。

?
具體而言,利用現(xiàn)有的開放標(biāo)準(zhǔn)和框架,不論所使用的服務(wù)器平臺和基礎(chǔ)架構(gòu)如何,都可以將Alveo擴(kuò)展到數(shù)百張卡,利用RoCE v2和數(shù)據(jù)中心DCBx的橋接,再加上200Gbps的帶寬,在網(wǎng)絡(luò)性能、延遲方面可以跟 InfiniBand抗衡。

MPI集成則可以幫助HPC開發(fā)者通過Vitis擴(kuò)展Alveo數(shù)據(jù)流水線。通過Vitis,可以抽象出開發(fā)機(jī)器級代碼的需要,比如RTL或Verilog,另外也能夠讓硬件設(shè)計(jì)嵌入到整個(gè)應(yīng)用的開發(fā)過程中?,F(xiàn)在,Vitis已經(jīng)可以支持更多的高層次編程語言,如C、C++、Python語言等,都開始支持現(xiàn)在主流的AI框架,開發(fā)人員還可以通過API和SDK來加速關(guān)鍵工作負(fù)載。
?

HPC三大用例

用于全球最大射電天文望遠(yuǎn)鏡天線陣列信號處理

CSIRO 是澳大利亞的國立研究機(jī)構(gòu),擁有全球最大的射電天文望遠(yuǎn)鏡天線陣列。在CSIRO用于其平方公里陣列( Square Kilometer Array )射電望遠(yuǎn)鏡的信號處理中,使用了Alveo U55C 卡。將 Alveo 卡部署為配備 HBM 的網(wǎng)絡(luò)附加加速器,能夠在整個(gè) HPC 信號處理集群中實(shí)現(xiàn)大規(guī)模吞吐量。

Nathan Chang解釋說,在這個(gè)世界上最大的射電天文望遠(yuǎn)鏡天線陣列中,每平方公里有13.1萬支天線,規(guī)模是21個(gè)節(jié)點(diǎn),用了420張U55C卡,每個(gè)節(jié)點(diǎn)是20張卡,在集群里每秒通過的數(shù)據(jù)是15Tb??梢钥吹剑幚砗屯ㄟ^的數(shù)據(jù)量非常龐大,并且還需要處理一些非常復(fù)雜的工作負(fù)載,比如光線生成模擬器,以及一些成像相關(guān)的功能。

據(jù)了解,該實(shí)驗(yàn)室也曾考慮過用GPU卡做集群搭建,但是需要雙插槽GPU卡,要占用兩個(gè)PCIe接口,同時(shí)也需要旁邊的插槽來處理相關(guān)帶寬需求,才能為板卡提供支持,這就需要三個(gè)PCIe插槽。相比起來,U55C卡有板載聯(lián)網(wǎng)功能,使用的是一個(gè)插槽。

此外,由于該應(yīng)用案例中,電源來自于可再生能源,對高性能、低功耗的要求很高。綜上,賽靈思Alveo U55C卡成為了理想選擇。基于 Alveo 加速器的集群使 CSIRO 能夠處理海量計(jì)算任務(wù),從 13.1 萬根天線中實(shí)時(shí)聚合、過濾、準(zhǔn)備和處理數(shù)據(jù)。420 張 Alveo U55C 卡通過支持P4語言的100Gbs交換機(jī)實(shí)現(xiàn)聯(lián)網(wǎng),在整個(gè)信號處理集群中提供了 460GB/s 的 HBM2帶寬。Alveo U55C 集群的處理性能可達(dá)15Tb/s的總吞吐量,功耗更低且更具成本效益。據(jù)介紹,CSIRO 現(xiàn)正完成一項(xiàng) Alveo 參考設(shè)計(jì),以助力其他射電天文學(xué)或相鄰產(chǎn)業(yè)獲得同樣的成功。

超并行數(shù)據(jù)流水線用于碰撞仿真軟件

第二個(gè)應(yīng)用案例是對Ansys碰撞仿真軟件LS-DYNA進(jìn)行性能加速。該碰撞仿真軟件幾乎用于全球所有汽車公司,因?yàn)榘踩院徒Y(jié)構(gòu)系統(tǒng)的設(shè)計(jì)往往取決于模型性能,因其能以計(jì)算機(jī)輔助設(shè)計(jì)有限元方法(FEM)仿真來降低物理碰撞測試的成本。

Ansys LS-DYNA FEM 求解器是驅(qū)動具備數(shù)億個(gè)自由度仿真的主要算法,而這些龐大的算法可以細(xì)分為更基本的求解器,如 PCG、稀疏矩陣、ICCG。

據(jù)Nathan Chang介紹,賽靈思在與LS-DYNA團(tuán)隊(duì)的合作過程中發(fā)現(xiàn),他們?yōu)榱酥芜@個(gè)仿真求解器,占用了90%的運(yùn)行時(shí)。由于稀疏矩陣計(jì)算需要大量數(shù)據(jù)訪問,而現(xiàn)有CPU架構(gòu)并不是非常理想,因?yàn)镃PU緩存量很小,且CPU在訪問系統(tǒng)內(nèi)存數(shù)據(jù)的時(shí)候,會浪費(fèi)一些時(shí)間周期,造成CPU核心利用度不高,導(dǎo)致性能下降。

“這個(gè)設(shè)計(jì)過程我們把它叫做‘?dāng)?shù)據(jù)流水線’,對于Alveo開發(fā)人員,在設(shè)計(jì)這個(gè)數(shù)據(jù)流水線的時(shí)候,每一個(gè)微小數(shù)據(jù)的調(diào)試都是非常重要的——這保證了我們從一個(gè)函數(shù)到另一個(gè)函數(shù),在數(shù)據(jù)流水線里轉(zhuǎn)移數(shù)據(jù)的時(shí)候,能夠保持好動能。同時(shí)數(shù)據(jù)的轉(zhuǎn)移也不會因?yàn)樽x和寫的動作而受到限制,因?yàn)槲覀兪褂玫氖强ㄉ系拇鎯ζ鳌保?Nathan Chang解釋說,“我們在這些數(shù)據(jù)流水線中設(shè)計(jì)了一些微線路,讓數(shù)據(jù)從一個(gè)函數(shù)到另一個(gè)函數(shù)做轉(zhuǎn)移,不用再返回原來的函數(shù)上,所以我們稱之為定制化數(shù)據(jù)遷移?!?/p>

與x86 CPU 相比,利用超并行數(shù)據(jù)流水線在大量 Alveo卡上進(jìn)行性能擴(kuò)展,LS-DYNA 能夠?qū)崿F(xiàn)超過5倍的性能加速。這能在一個(gè) Alveo 流水線中提高單位時(shí)鐘周期的工作效率,令 LS-DYNA 客戶受益于突破性的仿真時(shí)間。

為大數(shù)據(jù)圖分析提供加速

TigerGraph是一家圖分析平臺提供商,使用了多張 Alveo U55C 卡為兩種最高效算法進(jìn)行集群與加速,以驅(qū)動基于圖的推薦和集群引擎。

Nathan Chang談到,對于數(shù)據(jù)科學(xué)家而言,圖數(shù)據(jù)庫可謂一種顛覆性平臺。因?yàn)閿?shù)據(jù)孤島越來越多,圖數(shù)據(jù)庫能夠?qū)?shù)據(jù)從孤島里提取出來,然后讓數(shù)據(jù)科學(xué)家專注于數(shù)據(jù)之間的關(guān)系,而不是看單張圖。換句話說,讓關(guān)系成為數(shù)據(jù)庫第一位重要性的成員。根據(jù)Gartner預(yù)測,到2025年,大約有80%的數(shù)據(jù)庫會是圖數(shù)據(jù)庫。

圖從信息孤島中采集數(shù)據(jù)并重點(diǎn)關(guān)注數(shù)據(jù)間的關(guān)系,圖領(lǐng)域的下一個(gè)前沿是實(shí)時(shí)查找答案,因?yàn)闆]有人愿意為了推薦結(jié)果而多做等待。Alveo U55C 將推薦引擎的查詢和預(yù)測時(shí)間從數(shù)分鐘縮短至數(shù)毫秒。與基于 CPU 的集群相比,使用多張 U55C 卡擴(kuò)展分析所提供的出色計(jì)算能力和存儲器帶寬,可將圖查詢速度提升高達(dá) 45 倍。質(zhì)量評分也提升高達(dá) 35%,從而顯著提升置信度,將誤報(bào)幾率降至低個(gè)位數(shù)。

高性能計(jì)算領(lǐng)域FPGA加速器卡優(yōu)勢何在?

Nathan Chang表示,就目前在規(guī)劃中的HPC架構(gòu)而言,很多都非常專注于某一類型的工作負(fù)載,比如在設(shè)計(jì)、構(gòu)建、架構(gòu)方面,都是專門針對比較專用的工作負(fù)載。因此不會像過去一樣,造非常大的機(jī)架,來處理非常高的數(shù)據(jù)量,現(xiàn)在更多是搭建專屬的用例。當(dāng)然,高性能計(jì)算總是需要CPU、GPU的,但是一些非常需要靈活性的專用設(shè)備對FPGA加速器卡有很大需求,并且FPGA具有低功耗優(yōu)勢。

根據(jù)Nathan Chang分享的一些專門研究HPC的分析師觀點(diǎn),認(rèn)為加速器業(yè)務(wù)增長正在勢頭正猛的關(guān)口,不管是業(yè)務(wù)增長的速度,還是收入的占比,都超過了CPU。

“我們認(rèn)為,未來會有越來越多的算力部署在專用加速器領(lǐng)域,而不是通用CPU上。這對于整個(gè)HPC服務(wù)器集群的降功耗目標(biāo)都是有利的,因?yàn)閷S眉铀倨鞯墓母汀保?Nathan Chang補(bǔ)充,“高性能計(jì)算領(lǐng)域?qū)τ诟佣鄻踊壹?xì)分的計(jì)算平臺需求,未來將不斷增長。”

根據(jù)官方消息,Alveo U55C卡目前已可通過賽靈思官方渠道和授權(quán)分銷商進(jìn)行購買,該產(chǎn)品也可通過基于公有云的FaaS(FPGA-as-a-Service,F(xiàn)PGA 即服務(wù))供應(yīng)商進(jìn)行簡便評估,也可以通過選定的托管數(shù)據(jù)中心進(jìn)行專屬預(yù)覽。集群解決方案現(xiàn)已提供專屬預(yù)覽,預(yù)計(jì)將于明年第二季度全面問世。?

賽靈思

賽靈思

賽靈思(英語:Xilinx)是一家位于美國的可編程邏輯器件的生產(chǎn)商。該公司發(fā)明了現(xiàn)場可編程邏輯門陣列,并由此成名。賽靈思還是第一個(gè)無廠半導(dǎo)體公司(Fabless)。28nm時(shí)代,賽靈思提出All Programmable 的概念,從單一的FPGA企業(yè)戰(zhàn)略轉(zhuǎn)型為All Programmable FPGA、 SoC 和 3D IC 的全球領(lǐng)先提供商。且行業(yè)領(lǐng)先的器件與新一代設(shè)計(jì)環(huán)境以及 IP 完美地整合在一起,可滿足客戶對可編程邏輯乃至可編程系統(tǒng)集成的廣泛需求賽靈思于1984年創(chuàng)建于美國加利福尼亞州的硅谷,總部位于硅谷核心的圣何塞,并在科羅拉多州、愛爾蘭、新加坡 印度、中國、日本擁有分支機(jī)構(gòu)

賽靈思(英語:Xilinx)是一家位于美國的可編程邏輯器件的生產(chǎn)商。該公司發(fā)明了現(xiàn)場可編程邏輯門陣列,并由此成名。賽靈思還是第一個(gè)無廠半導(dǎo)體公司(Fabless)。28nm時(shí)代,賽靈思提出All Programmable 的概念,從單一的FPGA企業(yè)戰(zhàn)略轉(zhuǎn)型為All Programmable FPGA、 SoC 和 3D IC 的全球領(lǐng)先提供商。且行業(yè)領(lǐng)先的器件與新一代設(shè)計(jì)環(huán)境以及 IP 完美地整合在一起,可滿足客戶對可編程邏輯乃至可編程系統(tǒng)集成的廣泛需求賽靈思于1984年創(chuàng)建于美國加利福尼亞州的硅谷,總部位于硅谷核心的圣何塞,并在科羅拉多州、愛爾蘭、新加坡 印度、中國、日本擁有分支機(jī)構(gòu)收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費(fèi)電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~