加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1、《異構(gòu)融合計(jì)算技術(shù)白皮書》重磅發(fā)布
    • 2、《異構(gòu)融合計(jì)算技術(shù)白皮書》內(nèi)容介紹
    • 3、個(gè)人貢獻(xiàn)
    • 4、異構(gòu)融合計(jì)算的必然發(fā)展趨勢
    • 5、異構(gòu)融合計(jì)算的廣泛應(yīng)用場景
    • 6?凝聚共識(shí),共謀發(fā)展
    • 7、白皮書下載
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

這可能是計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域一個(gè)重要的里程碑事件

2023/09/22
4203
閱讀需 31 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

編者按

《異構(gòu)融合計(jì)算技術(shù)白皮書》在9月15日的世界計(jì)算大會(huì)上,由工信部電子五所的楊院長正式發(fā)布。

站在計(jì)算機(jī)體系結(jié)構(gòu)的歷史發(fā)展角度,此白皮書的意義重大:

白皮書率先提出“異構(gòu)融合計(jì)算”概念。這對計(jì)算機(jī)體系結(jié)構(gòu)的創(chuàng)新發(fā)展,具有非常重大的意義。

白皮書系統(tǒng)性地梳理異構(gòu)融合相關(guān)技術(shù),起到技術(shù)引領(lǐng)和廣泛宣傳的作用。

異構(gòu)融合計(jì)算需要行業(yè)形成共識(shí),最終形成統(tǒng)一的行業(yè)生態(tài),需要更多的行業(yè)協(xié)同。白皮書進(jìn)行了廣泛代表的、正式的、權(quán)威的全行業(yè)呼吁。

或許,未來5-10年回頭看,這次白皮書的發(fā)布,會(huì)是計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片行業(yè)的一個(gè)重要的里程碑事件。

1、《異構(gòu)融合計(jì)算技術(shù)白皮書》重磅發(fā)布

計(jì)算架構(gòu)從同構(gòu)走到異構(gòu),異構(gòu)計(jì)算已經(jīng)成為主流。但AI大模型、自動(dòng)駕駛元宇宙等超高算力需求的領(lǐng)域仍在快速發(fā)展,算力仍需持續(xù)快速提升;與此同時(shí),算力成本需要數(shù)量級下降。技術(shù)發(fā)展不會(huì)停止:隨著異構(gòu)的計(jì)算系統(tǒng)越來越多,計(jì)算架構(gòu)需要進(jìn)一步從異構(gòu)計(jì)算走向異構(gòu)融合計(jì)算。

當(dāng)前,是異構(gòu)融合計(jì)算的萌芽階段:

2019年,Intel提出了超異構(gòu)的概念,只強(qiáng)調(diào)了“多”異構(gòu),并沒有強(qiáng)調(diào)異構(gòu)的“融合”,并且這些年也沒有具體的產(chǎn)品出來。

NVIDIA雖然沒有提超異構(gòu)或異構(gòu)融合的概念,但NVIDIA的許多產(chǎn)品也在奔著這個(gè)方向在發(fā)展。例如,在數(shù)據(jù)中心領(lǐng)域,NVIDIA已經(jīng)有了GPU+CPU融合芯片,GPU+DPU融合芯片也已經(jīng)在研發(fā)當(dāng)中,未來GPU+CPU+DPU進(jìn)一步融合是必然趨勢。再例如,在汽車領(lǐng)域,NVIDIA THOR集成了數(shù)據(jù)中心架構(gòu)的CPU、GPU和DPU,能夠?qū)崿F(xiàn)和數(shù)據(jù)中心計(jì)算環(huán)境的一致性兼容,可以看作是一款具有一定“異構(gòu)融合計(jì)算”特征的大算力芯片。

時(shí)間來到2023年9月,在湖南長沙舉辦的第五屆世界計(jì)算大會(huì)上,工業(yè)和信息化部電子第五研究所軟件與系統(tǒng)研究院院長楊曉明,正式發(fā)布了《異構(gòu)融合計(jì)算技術(shù)白皮書》。在工信部電子五所的精心組織下,國內(nèi)諸多計(jì)算領(lǐng)域的高校和企業(yè)的眾多專家,歷經(jīng)半年多努力,全面而系統(tǒng)地梳理了異構(gòu)融合計(jì)算的方方面面,在行業(yè)中凝聚了廣泛共識(shí),最終形成了這本白皮書。

《異構(gòu)融合計(jì)算白皮書》的發(fā)布,必將在行業(yè)里形成廣泛影響力,使得更多的行業(yè)公司、科研院所以及廣大開發(fā)者,能夠關(guān)注并支持異構(gòu)融合計(jì)算的發(fā)展。

或許,未來5-10年回頭看,這次白皮書的發(fā)布,會(huì)是計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片行業(yè)的一個(gè)重要的里程碑事件。

2、《異構(gòu)融合計(jì)算技術(shù)白皮書》內(nèi)容介紹

(本章節(jié)內(nèi)容均來自《異構(gòu)融合計(jì)算白皮書》2023版)

2.1 參編單位和參編人員

《異構(gòu)融合計(jì)算技術(shù)白皮書》編寫者

參編單位:

浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國電信研究院、清華大學(xué)、中國科學(xué)院軟件研究所、國防科技大學(xué)、復(fù)旦大學(xué)、中國長城研究院、中國電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)(北京)有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中科院計(jì)算所、紫光集團(tuán)前沿技術(shù)研究院

參編人員:

楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文 、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽、買強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽、劉占民、王佑站、閆沛浩、張淑艷、楊攀飛

2.2 目錄

2.3 編者序

近年來,自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展,數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長。各類加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件,基于CPU+xPU的異構(gòu)計(jì)算系統(tǒng)逐漸成為各算力場景的主流架構(gòu)。然而,隨著異構(gòu)計(jì)算系統(tǒng)的種類和數(shù)量越來越多,xPU性能與靈活性難以兼顧、各xPU間計(jì)算孤島問題難以協(xié)同、調(diào)試和維護(hù)成本增高等問題愈發(fā)凸顯 ,亟需從異構(gòu)融合計(jì)算方向加強(qiáng)理論研究和實(shí)踐探索。

以人工智能發(fā)展為例,Nature Electronics期刊在 2022年 4月的一篇文章顯示:從 2018年開始,隨著AI大模型應(yīng)用的涌現(xiàn),算力需求平均每2個(gè)月翻一倍;摩根士丹利估計(jì)2022年谷歌的 3.3萬億次搜索,平均成本約為每個(gè) 0.2美分 John Hennessy表示 基于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍。需求的變化和成本的約束,再加上NoC(Network on Chip)和 SiP(System in Package)等新芯片技術(shù)的賦能 必將推動(dòng)算力基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算,走向異構(gòu)融合計(jì)算。同時(shí),以系統(tǒng)設(shè)計(jì)為中心,按照應(yīng)用需求來設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu),推動(dòng)多層級技術(shù)的融合已成為當(dāng)前的最佳可行方案。

狹義的異構(gòu)融合計(jì)算,指的是多種不同類型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算,是指通過將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化,以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場景和發(fā)展趨勢,通過概述計(jì)算領(lǐng)域相關(guān)概念,回顧計(jì)算架構(gòu)發(fā)展歷程,分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問題,從硬件層面(芯片級、設(shè)備級)、軟件層面(操作系統(tǒng)、編程框架)、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向,引出了異構(gòu)融合計(jì)算技術(shù)的發(fā) 展趨勢,并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí),指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn):一是,處理器架構(gòu)的限制,可擴(kuò)展性和靈活性難以滿足,計(jì)算孤島問題凸顯;二是,當(dāng)前的編程框架、編程語言、及其他編譯 /調(diào)試工具,不足以支撐高效的異構(gòu)代碼編寫、優(yōu)化和管理;三是,系統(tǒng)集成和互操作性技術(shù)要求高,難以構(gòu)建統(tǒng)一的系統(tǒng)視圖以支持跨平臺(tái)的開發(fā)和部署。

在此,對參與本白皮書編制的各位專家表示衷心的感謝。我們相信,白皮書將為讀者提供一個(gè)新的視角和思考方式,希望讀者能夠結(jié)合實(shí)際應(yīng)用場景,對異構(gòu)融合計(jì)算相關(guān)技術(shù)進(jìn)行深入探索和研究。白皮書內(nèi)容,不可避免會(huì)存在諸多不足,懇請各界專家批評指正。

2.4 “異構(gòu)融合計(jì)算”定義

Intel于2019年提出“超異構(gòu)計(jì)算”的概念,強(qiáng)調(diào)了超異構(gòu)計(jì)算涉及的三個(gè)方面:系統(tǒng)架構(gòu)、工藝和封裝,以及統(tǒng)一的異構(gòu)計(jì)算軟件。但在最核心的系統(tǒng)架構(gòu)層次, Intel僅僅只強(qiáng)調(diào)了“多”,并沒有進(jìn)一步對超異構(gòu)計(jì)算進(jìn)行闡述,以及設(shè)計(jì)實(shí)現(xiàn)的進(jìn)一步細(xì)節(jié)說明。

“異構(gòu)融合計(jì)算”是一個(gè)全新的概念,目前行業(yè)還沒有形成統(tǒng)一的定義。從概念上講,“異構(gòu)融合計(jì)算”屬于異構(gòu)計(jì)算的范疇,可以定義為異構(gòu)計(jì)算的一種高階形態(tài)。

本白皮書認(rèn)為,狹義的“異構(gòu)融合計(jì)算”,是一種新的計(jì)算架構(gòu)和方法,通過融合CPU和多種不同類型、不同架構(gòu)的加速處理器,以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而 廣義的“異構(gòu)融合計(jì)算”,則通過不同層次、不同類型的技術(shù)整合,來實(shí)現(xiàn)異構(gòu)融合計(jì)算資源的高效利用。

廣義的異構(gòu)融合計(jì)算,主要包含以下幾方面內(nèi)容:

超異構(gòu):系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上?!耙粋€(gè)稱為同構(gòu),兩個(gè)稱為異構(gòu),三個(gè)或三個(gè)以上稱為超異構(gòu)”。超異構(gòu)是異構(gòu)融合計(jì)算的前提。

硬件融合 :強(qiáng)調(diào)不同處理器之間的深度協(xié)同(指單個(gè)工作任務(wù)由兩個(gè)或兩個(gè)以上處理器協(xié)作處理)和深度融合(指某個(gè)具體工作任務(wù)可以跨 CPU、 GPU和 DSA等不同類型處理器運(yùn)行,也可以跨同類型中的不同架構(gòu)處理器運(yùn)行)。各處理器之間可 以通過高速總線或高性能網(wǎng)絡(luò)進(jìn)行通信和數(shù)據(jù)傳輸,通過更高層次的系統(tǒng)劃分和任務(wù)調(diào)度實(shí)現(xiàn)協(xié)同計(jì)算。

軟件融合:面向異構(gòu)(硬件)計(jì)算環(huán)境,將操作系統(tǒng)、應(yīng)用軟件、編程模型、編程語言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化,提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯開發(fā)工具,旨在降低異構(gòu)融合計(jì)算系統(tǒng)的復(fù)雜度,實(shí)現(xiàn)計(jì)算任務(wù)的跨平臺(tái)運(yùn)行。

系統(tǒng)融合:通過合理地任務(wù)分配和資源調(diào)度,異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高的計(jì)算性能和更好的計(jì)算效率。

傳統(tǒng)異構(gòu)計(jì)算,特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)在于:傳統(tǒng)異構(gòu)計(jì)算僅有一 種加速處理器類型,并且僅關(guān)注 CPU和加速處理器的協(xié)同;而異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類型,并且需要重點(diǎn)關(guān)注所有處理器之間的協(xié)同和融合,以及硬件與軟件之間的融合、系統(tǒng)內(nèi)部及系統(tǒng)之間的融合問題。

2.5 “異構(gòu)融合計(jì)算”案例:通用超異構(gòu)處理器

矩向科技定義了一款新的處理器芯片類型:通用超異構(gòu)處理器(GP-HPU, General Purpose Hyper-heterogeneous Processing Unit)。

通用超異構(gòu)處理器GP-HPU,通過NOC總線,把眾多的計(jì)算節(jié)點(diǎn)連接成一個(gè)芯片系統(tǒng)。從功能視角看,GP-HPU和SOC類似;在架構(gòu)上GP-HPU和SOC的主要區(qū)別在于每個(gè)加速處理器需要“圖靈完備”,成為一個(gè)可獨(dú)立工作的小系統(tǒng),可直接和其他小系統(tǒng)進(jìn)行交互且不需要主CPU的參與。每一個(gè)處理器作為一個(gè)小規(guī)模的類SOC的小系統(tǒng),再通過分布式架構(gòu),可構(gòu)建規(guī)模數(shù)量級提升的大系統(tǒng),也非常有利于芯片系統(tǒng)的平行擴(kuò)展。

系統(tǒng)任務(wù)主要分為三類:

(1)不經(jīng)常變化的任務(wù),歸屬基礎(chǔ)設(shè)施層,由DPU覆蓋;

(2)業(yè)務(wù)應(yīng)用加速部分,歸屬到彈性應(yīng)用加速層,由GPU等業(yè)務(wù)加速芯片覆蓋;

(3)業(yè)務(wù)應(yīng)用不可加速部分,以及其他沒有加速支持的任務(wù),歸屬到業(yè)務(wù)應(yīng)用層,由CPU覆蓋。從功能視角,GP-HPU,可以看作是CPU、GPU和DPU功能的集合。

但GP-HPU不是這三個(gè)芯片功能的簡單集成,通過不同類型處理器的深度合作,才能實(shí)現(xiàn)“團(tuán)隊(duì)協(xié)作,整體最優(yōu)”,實(shí)現(xiàn)性能和靈活性的兼顧。最后,是系統(tǒng)層次。通用能力的構(gòu)建是大算力芯片成功的關(guān)鍵。如何實(shí)現(xiàn)異構(gòu)融合計(jì)算的通用能力,是異構(gòu)融合計(jì)算能否落地的關(guān)鍵。

CPU、GPU和DPU三顆芯片,通常來自于不同的公司,實(shí)現(xiàn)三者間的深度協(xié)同比較難。在單芯片內(nèi)部實(shí)現(xiàn)異構(gòu)融合計(jì)算,是相對可行的路徑。此外,受限于單芯片所能容納的計(jì)算規(guī)模上限,目前的單芯片異構(gòu)融合計(jì)算,比較適合邊緣等相對輕量的計(jì)算場景,不太適合云計(jì)算等相對重量的計(jì)算場景。

GP-HPU,經(jīng)過“通用性”能力的強(qiáng)化設(shè)計(jì),可以廣泛使用在邊緣服務(wù)器、AI推理服務(wù)器、存儲(chǔ)服務(wù)器、企業(yè)云服務(wù)器等輕量級場景,還可以使用在智能座艙、MEC接入設(shè)備、低速無人車等場景。

3、個(gè)人貢獻(xiàn)

作為矩向科技的創(chuàng)始人兼CEO,也作為《軟硬件融合》圖書和公眾號的主筆,我深度的參與到白皮書的策劃和撰寫工作中。

2022年底,跟工信部電子五所楊老師交流關(guān)于異構(gòu)計(jì)算的挑戰(zhàn)和未來發(fā)展趨勢,所思所想,同頻共振。針對異構(gòu)算力多樣性的挑戰(zhàn),電子五所提出了研究課題“異構(gòu)計(jì)算融合技術(shù)發(fā)展研究”,最終落地為《異構(gòu)融合計(jì)算技術(shù)白皮書》。春節(jié)過后,我就開始積極地參與到白皮書的策劃和編寫工作中。到這次白皮書的定稿發(fā)布,前后經(jīng)歷了大半年的時(shí)間。白皮書也廣泛凝聚共識(shí),得到了國內(nèi)眾多知名高校和企業(yè)在技術(shù)和案例等方面的大力支持。

個(gè)人最主要的貢獻(xiàn)是提出“異構(gòu)融合計(jì)算”的概念,并細(xì)化和完善其定義和內(nèi)涵。這一概念得到了與會(huì)的各位專家一致贊同?!爱悩?gòu)計(jì)算融合”是一個(gè)現(xiàn)象,一個(gè)過程;而“異構(gòu)融合計(jì)算”則是一種創(chuàng)新的理念,也是一種全新的計(jì)算架構(gòu)和計(jì)算技術(shù),同時(shí)還是落地的解決方案。異構(gòu)融合計(jì)算,通過融合CPU和多種不同類型不同架構(gòu)的加速處理器,以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。異構(gòu)融合計(jì)算繼承自異構(gòu)計(jì)算,并向前繼續(xù)發(fā)展,成為一種新的計(jì)算架構(gòu)。異構(gòu)融合需要不同層次不同類型的軟硬件技術(shù)的深度協(xié)作,才能最終實(shí)現(xiàn)異構(gòu)融合的廣泛落地。

白皮書上述相關(guān)內(nèi)容,歡迎各界專家批評指正。

4、異構(gòu)融合計(jì)算的必然發(fā)展趨勢

一方面,業(yè)務(wù)需求驅(qū)動(dòng)。以人工智能為例,隨著BERT、GPT等大模型的快速發(fā)展,從2018年到2023年,算力需求增長進(jìn)一步加速,平均每2個(gè)月就翻一番。AI算力需求快速增長,算力芯片難以支撐:單GPU芯片逐漸性能極限;必須通過Scale Out的擴(kuò)大計(jì)算集群規(guī)模的方式提升算力;隨之而來的,AI計(jì)算成本越來越難以承受。

另一方面,工藝和封裝支撐。工藝進(jìn)步,單芯片容納的設(shè)計(jì)規(guī)模越來大;Chiplet封裝,使得在單芯片層次,可以構(gòu)建規(guī)模數(shù)量級提升的超大系統(tǒng)。

業(yè)務(wù)需求驅(qū)動(dòng),以及底層工藝和封裝支撐,一定需要系統(tǒng)架構(gòu)層次的創(chuàng)新。

從同構(gòu)到異構(gòu),從異構(gòu)(單異構(gòu)、多異構(gòu))到異構(gòu)融合,系統(tǒng)架構(gòu)創(chuàng)新,是架構(gòu)從簡單到復(fù)雜、繼承并不斷發(fā)展的過程。

5、異構(gòu)融合計(jì)算的廣泛應(yīng)用場景

5.1 復(fù)雜計(jì)算系統(tǒng)

微觀上,復(fù)雜計(jì)算系統(tǒng)需要實(shí)現(xiàn)軟件和硬件的解耦。通過虛擬化,實(shí)現(xiàn)軟硬件解耦,這樣,軟件就可以無縫地跨平臺(tái)自由遷移。

微觀上,復(fù)雜計(jì)算系統(tǒng),需要在一個(gè)硬件系統(tǒng)上支持多個(gè)軟件系統(tǒng)。通過虛擬化,實(shí)現(xiàn)計(jì)算資源的切分、池化和重組,構(gòu)建形態(tài)各異的各種邏輯計(jì)算平臺(tái),供VM、容器等軟件實(shí)體使用。

微觀上,硬件計(jì)算平臺(tái)需要支持多種計(jì)算資源,并且需要支持這些計(jì)算資源的協(xié)同和融合。在CPU同構(gòu)計(jì)算時(shí)代,通過VT-x/VT-d等技術(shù)實(shí)現(xiàn)處理器的完全硬件虛擬化非常成熟,但如果增加了各種異構(gòu)的處理器,并且要考慮這些異構(gòu)處理器的架構(gòu)兼容性,以及它們之間的協(xié)同和融合,則是非常挑戰(zhàn)的事情。

宏觀上,復(fù)雜計(jì)算是①基于一組硬件服務(wù)器的、②運(yùn)行多個(gè)宏系統(tǒng)的、③動(dòng)態(tài)的、④交叉混合計(jì)算。

總結(jié)一下,復(fù)雜計(jì)算需要:

支持虛擬化、服務(wù)化、冷/熱遷移,從而實(shí)現(xiàn)單設(shè)備多系統(tǒng)共存,以及跨設(shè)備的多個(gè)宏系統(tǒng)的協(xié)同/融合。

單個(gè)硬件支持多個(gè)不同規(guī)格系統(tǒng)。

單個(gè)硬件計(jì)算資源的多樣性,要考慮資源的切分、池化和重組,還需要考慮不同資源間的協(xié)同和融合。

單個(gè)硬件集群支持多個(gè)宏系統(tǒng)集群,并且這些宏系統(tǒng)集群交叉混布。

數(shù)以萬計(jì)甚至百萬級的計(jì)算設(shè)備規(guī)模,完全動(dòng)態(tài)的、非常頻繁的軟硬件配置變更。

微觀上,不同系統(tǒng)的資源需求千差萬別;宏觀上,數(shù)以百萬計(jì)的系統(tǒng),總的資源需求趨向于確定。

硬件需要足夠的一致性(盡可能少的型號/規(guī)格),在此基礎(chǔ)上實(shí)現(xiàn)具體系統(tǒng)運(yùn)行平臺(tái)的差異性。

云計(jì)算幾乎是最復(fù)雜的計(jì)算場景,復(fù)雜計(jì)算場景從云計(jì)算場景提取各種本質(zhì)的計(jì)算特征和挑戰(zhàn),把它融入底層軟硬件設(shè)計(jì)和優(yōu)化當(dāng)中,反過來再落地到云計(jì)算,以及其他更多的復(fù)雜計(jì)算場景:

從計(jì)算的位置來說,復(fù)雜計(jì)算包括云計(jì)算、邊緣計(jì)算和自動(dòng)駕駛等超級終端場景;

從計(jì)算位置來說,超算和云計(jì)算是相似的,但兩者的計(jì)算訴求不同:超算更注重性能,云計(jì)算更注重成本。目前,兩者在不斷地侵入對方的“領(lǐng)地”,超算和云計(jì)算在不斷地融合。

智能計(jì)算,跟云計(jì)算、超算等不屬于同層次的計(jì)算。智能計(jì)算是業(yè)務(wù)應(yīng)用,智能計(jì)算可以在云、邊、端或超算領(lǐng)域。

5.2 基于異構(gòu)融合的復(fù)雜計(jì)算場景

5.2.1 場景一:云計(jì)算

目前,對算力的需求越來越高,通過Scale Out擴(kuò)大集群規(guī)模的方式提升性能代價(jià)高昂,治標(biāo)不治本。要想本質(zhì)地提高性能,還是要回到Scale Up方式。

DPU是目前數(shù)據(jù)中心的第三顆重要的芯片,通過在服務(wù)器設(shè)備級實(shí)現(xiàn)CPU眾多工作任務(wù)的卸載和加速,以此來實(shí)現(xiàn)整個(gè)服務(wù)器級別的Scale Up:

從架構(gòu)角度,CPU、GPU和DPU三芯片方案是多異構(gòu)計(jì)算架構(gòu),很難實(shí)現(xiàn)不同加速處理器之間的協(xié)同計(jì)算。

從現(xiàn)實(shí)角度,CPU、GPU和DPU三顆芯片,通常來自于不同的公司,實(shí)現(xiàn)三者間的高效交互和深度協(xié)同比較難。

隨著Chiplet的流行和能力增強(qiáng),通過架構(gòu)重構(gòu)和多DIE集成,進(jìn)一步優(yōu)化數(shù)據(jù)交互,并協(xié)同不同處理單元的任務(wù)分工,實(shí)現(xiàn)多個(gè)異構(gòu)資源的高效協(xié)作,在單芯片內(nèi)部實(shí)現(xiàn)異構(gòu)融合計(jì)算,是相對可行的路徑。

5.2.2 場景二:邊緣計(jì)算

在不考慮Chiplet多DIE封裝的支持下,受限于單DIE單芯片所能容納的計(jì)算規(guī)模上限,目前的單芯片異構(gòu)融合計(jì)算,比較適合邊緣等相對輕量的計(jì)算場景,不太適合云計(jì)算等相對重量的計(jì)算場景。

傳統(tǒng)的服務(wù)器以CPU為中心,然后增加高性能網(wǎng)卡、加速處理器和PCIE總線擴(kuò)展卡等其他組件,成本非常高。并且,受限于多芯片交互,綜合性能也會(huì)有影響。異構(gòu)融合處理器,可以實(shí)現(xiàn)邊緣等輕量計(jì)算場景的單芯片解決方案,可以實(shí)現(xiàn)最極致的性能的同時(shí),最低的成本。并且在功耗和物理空間方面都有非常大的優(yōu)勢(功耗和物理空間優(yōu)勢,可以實(shí)現(xiàn)高密度計(jì)算,進(jìn)一步優(yōu)化成本,并進(jìn)一步降低對數(shù)據(jù)中心基礎(chǔ)設(shè)施的要求)。

5.2.3 場景三:自動(dòng)駕駛等超級終端

上圖是BOSCH給出的汽車電氣架構(gòu)演進(jìn)示意圖。從模塊級的ECU到集中相關(guān)功能的域控制器,再到完全集中的車載計(jì)算機(jī)。

未來的智能汽車,越來越像一臺(tái)服務(wù)器。

汽車越來越像服務(wù)器,因此目前汽車技術(shù)的發(fā)展,本質(zhì)上是云計(jì)算數(shù)據(jù)中心的各種技術(shù)的不斷下沉,比如,虛擬化、SOA、軟件定義等技術(shù)。如上圖:在DCU時(shí)代,一個(gè)DCU支持一個(gè)系統(tǒng);但在CCU時(shí)代,通過虛擬化,實(shí)現(xiàn)一個(gè)芯片支持多個(gè)不同類型的系統(tǒng),實(shí)現(xiàn)兼容現(xiàn)有軟件的同時(shí),還可以實(shí)現(xiàn)更高效的交互。并且,單芯片的綜合成本也是最低。

隨著AI大模型在自動(dòng)駕駛算法中逐漸落地,汽車CCU對算力的需求水漲船高。汽車CCU芯片也是異構(gòu)融合計(jì)算非常典型的應(yīng)用領(lǐng)域。

以NVIDIA THOR為例:THOR設(shè)計(jì)思路是完全的“終局思維”,相比BOSCH給出的一步步的演進(jìn)的思路,跨越集中式的車載計(jì)算機(jī)和云端協(xié)同的車載計(jì)算機(jī),直接到達(dá)云端融合的車載計(jì)算機(jī)。云端融合的意思是服務(wù)可以動(dòng)態(tài)的、自適應(yīng)的運(yùn)行在云或端,方便云端的資源動(dòng)態(tài)調(diào)節(jié)。THOR采用的是跟云端完全一致的計(jì)算架構(gòu):Grace-next CPU、Ampere-next GPU以及Bluefield DPU,硬件上可以做到云和端的融合。

5.2.4 場景四:超算HPC

基于CPU計(jì)算,實(shí)現(xiàn)千萬億次(P級超算)超算已經(jīng)非常困難。從天河1A開始,很多超算逐漸開始采用異構(gòu)計(jì)算架構(gòu)。而到了百億億次(E級超算),異構(gòu)計(jì)算已經(jīng)是必選項(xiàng),所有的超算架構(gòu)均采用異構(gòu)計(jì)算。但是,異構(gòu)計(jì)算也有瓶頸,面向下一代十萬億億次超算(Z級超算),異構(gòu)計(jì)算已經(jīng)無法滿足要求,大家把目光都投向了異構(gòu)融合計(jì)算。

拭目以待!

5.2.5 場景五:智能計(jì)算

智能計(jì)算,是業(yè)務(wù)應(yīng)用層次的計(jì)算。可以承載到云計(jì)算、邊緣計(jì)算、終端計(jì)算,或者超算。但考慮到隨著大模型的發(fā)展,AI算力要求越來越高,有必要針對AI計(jì)算,專門構(gòu)建高效的計(jì)算架構(gòu)和系統(tǒng)。

隨著GPU的性能提升放緩,而AI算力需求仍然2個(gè)月翻番,所以只能通過擴(kuò)規(guī)模的方式提升整體算力。但受阿姆達(dá)爾定律影響,這種方式也會(huì)逐漸到底。

并且,傳統(tǒng)以CPU為中心的服務(wù)器計(jì)算架構(gòu),存在一些問題:I/O帶寬低、路徑長;CPU是性能的瓶頸;擴(kuò)展性差;等等。

要想顯著的提升AI計(jì)算的性能,需要芯片層次異構(gòu)融合優(yōu)化:

Scale Up:最本質(zhì)的,提升單節(jié)點(diǎn)性能。在工藝成本等因素約束下,提升性能只能從系統(tǒng)架構(gòu)/微架構(gòu)方面挖潛(異構(gòu)融合架構(gòu))。

Scale Out:擴(kuò)大集群規(guī)模,需要增強(qiáng)集群的內(nèi)聯(lián)交互;更高的帶寬,更高性能的網(wǎng)絡(luò)。

通用性:AI算法快速迭代,每家算法差異性巨大。芯片需要足夠通用性,適配算法的差異性和快速迭代。

成本優(yōu)化:GPU性能極限,ChatGPT需要上萬張GPU卡,成本高昂。成本降低的手段:通用、集成度、擴(kuò)展性等。

5.3 綜合計(jì)算場景

5.3.1 汽車智能網(wǎng)聯(lián)

清華李克強(qiáng)院士,給出智能網(wǎng)聯(lián)汽車“中國方案”,其主旨要義是車路云深度協(xié)同的一體化。異構(gòu)融合計(jì)算,可以實(shí)現(xiàn)云和邊緣側(cè)的大算力芯片,還可以實(shí)現(xiàn)終端側(cè)的大算力單芯片。同時(shí),需要考慮復(fù)雜計(jì)算場景的各種要求,從芯片架構(gòu)層次,原生的支持云、邊、端深度協(xié)同。

5.3.2 云網(wǎng)邊端融合

汽車智能網(wǎng)聯(lián)是一個(gè)具體場景,把場景泛化,還有很多場景,如手機(jī)移動(dòng)終端、元宇宙XR、數(shù)字工廠、數(shù)字城市、數(shù)字生活等,都需要終端和云端、邊緣端的深度協(xié)同。因此,站在計(jì)算的角度,最終云網(wǎng)邊端需要深度融合成“一個(gè)”超級大系統(tǒng),來滿足幾乎“所有”計(jì)算需求。

云、網(wǎng)、邊、端不同計(jì)算的位置,是我們?nèi)藶閯澐值?,不管在什么位置,它都是一個(gè)符合計(jì)算機(jī)架構(gòu)的計(jì)算設(shè)備。因此,我們可以構(gòu)建一個(gè)統(tǒng)一的異構(gòu)融合計(jì)算的架構(gòu),來實(shí)現(xiàn)云網(wǎng)邊端計(jì)算和開發(fā)軟件的一致,來實(shí)現(xiàn)計(jì)算任務(wù)可以隨時(shí)跨平臺(tái)運(yùn)行,來實(shí)現(xiàn)云網(wǎng)邊端的深度融合。

6?凝聚共識(shí),共謀發(fā)展

6.1 構(gòu)建異構(gòu)融合開放計(jì)算生態(tài)

一方面,按照處理器靈活性,從左向右,處理器的類型越多,架構(gòu)的數(shù)量和種類也越多。不同類型、不同領(lǐng)域、不同場景、不同廠家、不同架構(gòu)的處理器,會(huì)導(dǎo)致處理器架構(gòu)的完全碎片化;另一方面,處理器需要支持?jǐn)?shù)據(jù)中心內(nèi)部的集群計(jì)算,還需要支持跨云網(wǎng)邊端的融合計(jì)算,這對處理器架構(gòu)一致性提出了很高的要求。兩方面的挑戰(zhàn),在異構(gòu)融合計(jì)算時(shí)代,構(gòu)建統(tǒng)一的計(jì)算架構(gòu)變得非常的困難。

需要在行業(yè)內(nèi)廣泛凝聚共識(shí),實(shí)現(xiàn)統(tǒng)一的系統(tǒng)架構(gòu)接口,才能實(shí)現(xiàn)多樣性計(jì)算資源的協(xié)同,從而實(shí)現(xiàn)資源的切分、池化和共享,以及平臺(tái)的融合。

異構(gòu)融合計(jì)算時(shí)代,不存在封閉的計(jì)算生態(tài)。要想成功,開放標(biāo)準(zhǔn)的架構(gòu)和生態(tài),是某個(gè)具體公司和整個(gè)產(chǎn)業(yè)成功的必由發(fā)展之路。

6.2 抓住技術(shù)變革的歷史時(shí)機(jī)

大算力芯片最核心的能力是通用性,而通用計(jì)算存在的基礎(chǔ)是“二八定律”無處不在:隨著系統(tǒng)的擴(kuò)大,會(huì)逐漸沉淀許多共性的計(jì)算任務(wù)。依據(jù)二八定律,對三個(gè)階段進(jìn)行定性的分析:

在CPU同構(gòu)計(jì)算階段,100%工作由CPU完成;

在GPU異構(gòu)階段,80%工作由GPU完成,CPU只完成剩余的20%的工作;

異構(gòu)融合計(jì)算階段,80%工作由各類更高效的DSA完成,GPU只完成剩余20%工作的80%,即16%的工作,剩余的4%交給CPU。

CPU是上世紀(jì)70年代發(fā)明的,國內(nèi)最早的龍芯CPU是2002年投片成功的,在CPU領(lǐng)域國內(nèi)至少晚了30年時(shí)間。GPGPU是2006年NVIDIA發(fā)布的Tesla架構(gòu)GPU,國內(nèi)則是近幾年才有諸多初創(chuàng)公司開始在此領(lǐng)域發(fā)力的,晚了差不多15年時(shí)間。

第一代通用計(jì)算是CPU同構(gòu),成就了Intel的王者地位;第二代通用計(jì)算是GPU異構(gòu),隨著AI大模型的火爆NVIDIA市值超過了10000億美金,遠(yuǎn)超Intel、AMD高通的總和。第一代和第二代通用計(jì)算CPU、GPU,我們已經(jīng)落后,目前國內(nèi)有眾多公司重?fù)?dān)在肩,在拼命追趕。

在一個(gè)非常成熟的領(lǐng)域,要想追趕先進(jìn),非常的困難。但在行業(yè)重大技術(shù)變革期,就是趕超的絕好時(shí)機(jī)。

異構(gòu)融合計(jì)算的發(fā)展機(jī)會(huì),使得在計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片的架構(gòu)創(chuàng)新方面,國內(nèi)首次有了和國際先進(jìn)水平站在同一個(gè)起跑線的機(jī)會(huì)。歷史機(jī)遇稍縱即逝,我們需要站在國家戰(zhàn)略的高度,快馬加鞭,加大投入。

7、白皮書下載

工信部電子五所官方下載:

#白皮書獲取方式# 發(fā)送“獲取《異構(gòu)融合計(jì)算技術(shù)白皮書》”至郵箱: saibao2022@163.com

“軟硬件融合”公眾號下載:

公眾號回復(fù)“白皮書”下載。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
50125-8000 1 Molex Wire Terminal,

ECAD模型

下載ECAD模型
$0.06 查看
2N7002BKS,115 1 NXP Semiconductors 2N7002BKS - 60 V, 300 mA dual N-channel Trench MOSFET TSSOP 6-Pin
$0.4 查看
BSS138BK,215 1 NXP Semiconductors BSS138BK - 60 V, 360 mA N-channel Trench MOSFET TO-236 3-Pin
$0.26 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時(shí)兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。