亚洲欧洲精品天堂在线会员,免费超爽大片黄,成全视频观看免费观看

編者按

《異構(gòu)融合計(jì)算技術(shù)白皮書》在9月15日的世界計(jì)算大會(huì)上，由工信部電子五所的楊院長正式發(fā)布。

站在計(jì)算機(jī)體系結(jié)構(gòu)的歷史發(fā)展角度，此白皮書的意義重大：

白皮書率先提出“異構(gòu)融合計(jì)算”概念。這對計(jì)算機(jī)體系結(jié)構(gòu)的創(chuàng)新發(fā)展，具有非常重大的意義。

白皮書系統(tǒng)性地梳理異構(gòu)融合相關(guān)技術(shù)，起到技術(shù)引領(lǐng)和廣泛宣傳的作用。

異構(gòu)融合計(jì)算需要行業(yè)形成共識(shí)，最終形成統(tǒng)一的行業(yè)生態(tài)，需要更多的行業(yè)協(xié)同。白皮書進(jìn)行了廣泛代表的、正式的、權(quán)威的全行業(yè)呼吁。

或許，未來5-10年回頭看，這次白皮書的發(fā)布，會(huì)是計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片行業(yè)的一個(gè)重要的里程碑事件。

1、《異構(gòu)融合計(jì)算技術(shù)白皮書》重磅發(fā)布

計(jì)算架構(gòu)從同構(gòu)走到異構(gòu)，異構(gòu)計(jì)算已經(jīng)成為主流。但AI大模型、自動(dòng)駕駛、元宇宙等超高算力需求的領(lǐng)域仍在快速發(fā)展，算力仍需持續(xù)快速提升；與此同時(shí)，算力成本需要數(shù)量級下降。技術(shù)發(fā)展不會(huì)停止：隨著異構(gòu)的計(jì)算系統(tǒng)越來越多，計(jì)算架構(gòu)需要進(jìn)一步從異構(gòu)計(jì)算走向異構(gòu)融合計(jì)算。

當(dāng)前，是異構(gòu)融合計(jì)算的萌芽階段：

2019年，Intel提出了超異構(gòu)的概念，只強(qiáng)調(diào)了“多”異構(gòu)，并沒有強(qiáng)調(diào)異構(gòu)的“融合”，并且這些年也沒有具體的產(chǎn)品出來。

NVIDIA雖然沒有提超異構(gòu)或異構(gòu)融合的概念，但NVIDIA的許多產(chǎn)品也在奔著這個(gè)方向在發(fā)展。例如，在數(shù)據(jù)中心領(lǐng)域，NVIDIA已經(jīng)有了GPU+CPU融合芯片，GPU+DPU融合芯片也已經(jīng)在研發(fā)當(dāng)中，未來GPU+CPU+DPU進(jìn)一步融合是必然趨勢。再例如，在汽車領(lǐng)域，NVIDIA THOR集成了數(shù)據(jù)中心架構(gòu)的CPU、GPU和DPU，能夠?qū)崿F(xiàn)和數(shù)據(jù)中心計(jì)算環(huán)境的一致性兼容，可以看作是一款具有一定“異構(gòu)融合計(jì)算”特征的大算力芯片。

時(shí)間來到2023年9月，在湖南長沙舉辦的第五屆世界計(jì)算大會(huì)上，工業(yè)和信息化部電子第五研究所軟件與系統(tǒng)研究院院長楊曉明，正式發(fā)布了《異構(gòu)融合計(jì)算技術(shù)白皮書》。在工信部電子五所的精心組織下，國內(nèi)諸多計(jì)算領(lǐng)域的高校和企業(yè)的眾多專家，歷經(jīng)半年多努力，全面而系統(tǒng)地梳理了異構(gòu)融合計(jì)算的方方面面，在行業(yè)中凝聚了廣泛共識(shí)，最終形成了這本白皮書。

《異構(gòu)融合計(jì)算白皮書》的發(fā)布，必將在行業(yè)里形成廣泛影響力，使得更多的行業(yè)公司、科研院所以及廣大開發(fā)者，能夠關(guān)注并支持異構(gòu)融合計(jì)算的發(fā)展。

或許，未來5-10年回頭看，這次白皮書的發(fā)布，會(huì)是計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片行業(yè)的一個(gè)重要的里程碑事件。

2、《異構(gòu)融合計(jì)算技術(shù)白皮書》內(nèi)容介紹

（本章節(jié)內(nèi)容均來自《異構(gòu)融合計(jì)算白皮書》2023版）

2.1 參編單位和參編人員

《異構(gòu)融合計(jì)算技術(shù)白皮書》編寫者

參編單位：

浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國電信研究院、清華大學(xué)、中國科學(xué)院軟件研究所、國防科技大學(xué)、復(fù)旦大學(xué)、中國長城研究院、中國電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)（北京）有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中科院計(jì)算所、紫光集團(tuán)前沿技術(shù)研究院

參編人員：

楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽、買強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽、劉占民、王佑站、閆沛浩、張淑艷、楊攀飛

2.2 目錄

2.3 編者序

近年來，自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展，數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長。各類加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件，基于CPU+xPU的異構(gòu)計(jì)算系統(tǒng)逐漸成為各算力場景的主流架構(gòu)。然而，隨著異構(gòu)計(jì)算系統(tǒng)的種類和數(shù)量越來越多，xPU性能與靈活性難以兼顧、各xPU間計(jì)算孤島問題難以協(xié)同、調(diào)試和維護(hù)成本增高等問題愈發(fā)凸顯，亟需從異構(gòu)融合計(jì)算方向加強(qiáng)理論研究和實(shí)踐探索。

以人工智能發(fā)展為例，Nature Electronics期刊在 2022年 4月的一篇文章顯示：從 2018年開始，隨著AI大模型應(yīng)用的涌現(xiàn)，算力需求平均每2個(gè)月翻一倍；摩根士丹利估計(jì)2022年谷歌的 3.3萬億次搜索，平均成本約為每個(gè) 0.2美分 John Hennessy表示基于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍。需求的變化和成本的約束，再加上NoC（Network on Chip）和 SiP（System in Package）等新芯片技術(shù)的賦能必將推動(dòng)算力基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算，走向異構(gòu)融合計(jì)算。同時(shí)，以系統(tǒng)設(shè)計(jì)為中心，按照應(yīng)用需求來設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu)，推動(dòng)多層級技術(shù)的融合已成為當(dāng)前的最佳可行方案。

狹義的異構(gòu)融合計(jì)算，指的是多種不同類型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算，是指通過將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化，以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場景和發(fā)展趨勢，通過概述計(jì)算領(lǐng)域相關(guān)概念，回顧計(jì)算架構(gòu)發(fā)展歷程，分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問題，從硬件層面（芯片級、設(shè)備級）、軟件層面（操作系統(tǒng)、編程框架）、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向，引出了異構(gòu)融合計(jì)算技術(shù)的發(fā) 展趨勢，并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí)，指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn)：一是，處理器架構(gòu)的限制，可擴(kuò)展性和靈活性難以滿足，計(jì)算孤島問題凸顯；二是，當(dāng)前的編程框架、編程語言、及其他編譯 /調(diào)試工具，不足以支撐高效的異構(gòu)代碼編寫、優(yōu)化和管理；三是，系統(tǒng)集成和互操作性技術(shù)要求高，難以構(gòu)建統(tǒng)一的系統(tǒng)視圖以支持跨平臺(tái)的開發(fā)和部署。

在此，對參與本白皮書編制的各位專家表示衷心的感謝。我們相信，白皮書將為讀者提供一個(gè)新的視角和思考方式，希望讀者能夠結(jié)合實(shí)際應(yīng)用場景，對異構(gòu)融合計(jì)算相關(guān)技術(shù)進(jìn)行深入探索和研究。白皮書內(nèi)容，不可避免會(huì)存在諸多不足，懇請各界專家批評指正。

2.4 “異構(gòu)融合計(jì)算”定義

Intel于2019年提出“超異構(gòu)計(jì)算”的概念，強(qiáng)調(diào)了超異構(gòu)計(jì)算涉及的三個(gè)方面：系統(tǒng)架構(gòu)、工藝和封裝，以及統(tǒng)一的異構(gòu)計(jì)算軟件。但在最核心的系統(tǒng)架構(gòu)層次， Intel僅僅只強(qiáng)調(diào)了“多”，并沒有進(jìn)一步對超異構(gòu)計(jì)算進(jìn)行闡述，以及設(shè)計(jì)實(shí)現(xiàn)的進(jìn)一步細(xì)節(jié)說明。

“異構(gòu)融合計(jì)算”是一個(gè)全新的概念，目前行業(yè)還沒有形成統(tǒng)一的定義。從概念上講，“異構(gòu)融合計(jì)算”屬于異構(gòu)計(jì)算的范疇，可以定義為異構(gòu)計(jì)算的一種高階形態(tài)。

本白皮書認(rèn)為，狹義的“異構(gòu)融合計(jì)算”，是一種新的計(jì)算架構(gòu)和方法，通過融合CPU和多種不同類型、不同架構(gòu)的加速處理器，以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而廣義的“異構(gòu)融合計(jì)算”，則通過不同層次、不同類型的技術(shù)整合，來實(shí)現(xiàn)異構(gòu)融合計(jì)算資源的高效利用。

廣義的異構(gòu)融合計(jì)算，主要包含以下幾方面內(nèi)容：

超異構(gòu)：系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上?！耙粋€(gè)稱為同構(gòu)，兩個(gè)稱為異構(gòu)，三個(gè)或三個(gè)以上稱為超異構(gòu)”。超異構(gòu)是異構(gòu)融合計(jì)算的前提。

硬件融合：強(qiáng)調(diào)不同處理器之間的深度協(xié)同（指單個(gè)工作任務(wù)由兩個(gè)或兩個(gè)以上處理器協(xié)作處理）和深度融合（指某個(gè)具體工作任務(wù)可以跨 CPU、 GPU和 DSA等不同類型處理器運(yùn)行，也可以跨同類型中的不同架構(gòu)處理器運(yùn)行）。各處理器之間可以通過高速總線或高性能網(wǎng)絡(luò)進(jìn)行通信和數(shù)據(jù)傳輸，通過更高層次的系統(tǒng)劃分和任務(wù)調(diào)度實(shí)現(xiàn)協(xié)同計(jì)算。

軟件融合：面向異構(gòu)（硬件）計(jì)算環(huán)境，將操作系統(tǒng)、應(yīng)用軟件、編程模型、編程語言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化，提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯開發(fā)工具，旨在降低異構(gòu)融合計(jì)算系統(tǒng)的復(fù)雜度，實(shí)現(xiàn)計(jì)算任務(wù)的跨平臺(tái)運(yùn)行。

系統(tǒng)融合：通過合理地任務(wù)分配和資源調(diào)度，異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高的計(jì)算性能和更好的計(jì)算效率。

傳統(tǒng)異構(gòu)計(jì)算，特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)在于：傳統(tǒng)異構(gòu)計(jì)算僅有一種加速處理器類型，并且僅關(guān)注 CPU和加速處理器的協(xié)同；而異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類型，并且需要重點(diǎn)關(guān)注所有處理器之間的協(xié)同和融合，以及硬件與軟件之間的融合、系統(tǒng)內(nèi)部及系統(tǒng)之間的融合問題。

2.5 “異構(gòu)融合計(jì)算”案例：通用超異構(gòu)處理器

矩向科技定義了一款新的處理器芯片類型：通用超異構(gòu)處理器（GP-HPU, General Purpose Hyper-heterogeneous Processing Unit）。

通用超異構(gòu)處理器GP-HPU，通過NOC總線，把眾多的計(jì)算節(jié)點(diǎn)連接成一個(gè)芯片系統(tǒng)。從功能視角看，GP-HPU和SOC類似；在架構(gòu)上GP-HPU和SOC的主要區(qū)別在于每個(gè)加速處理器需要“圖靈完備”，成為一個(gè)可獨(dú)立工作的小系統(tǒng)，可直接和其他小系統(tǒng)進(jìn)行交互且不需要主CPU的參與。每一個(gè)處理器作為一個(gè)小規(guī)模的類SOC的小系統(tǒng)，再通過分布式架構(gòu)，可構(gòu)建規(guī)模數(shù)量級提升的大系統(tǒng)，也非常有利于芯片系統(tǒng)的平行擴(kuò)展。

系統(tǒng)任務(wù)主要分為三類：

（1）不經(jīng)常變化的任務(wù)，歸屬基礎(chǔ)設(shè)施層，由DPU覆蓋；

（2）業(yè)務(wù)應(yīng)用加速部分，歸屬到彈性應(yīng)用加速層，由GPU等業(yè)務(wù)加速芯片覆蓋；

（3）業(yè)務(wù)應(yīng)用不可加速部分，以及其他沒有加速支持的任務(wù)，歸屬到業(yè)務(wù)應(yīng)用層，由CPU覆蓋。從功能視角，GP-HPU，可以看作是CPU、GPU和DPU功能的集合。

但GP-HPU不是這三個(gè)芯片功能的簡單集成，通過不同類型處理器的深度合作，才能實(shí)現(xiàn)“團(tuán)隊(duì)協(xié)作，整體最優(yōu)”，實(shí)現(xiàn)性能和靈活性的兼顧。最后，是系統(tǒng)層次。通用能力的構(gòu)建是大算力芯片成功的關(guān)鍵。如何實(shí)現(xiàn)異構(gòu)融合計(jì)算的通用能力，是異構(gòu)融合計(jì)算能否落地的關(guān)鍵。

CPU、GPU和DPU三顆芯片，通常來自于不同的公司，實(shí)現(xiàn)三者間的深度協(xié)同比較難。在單芯片內(nèi)部實(shí)現(xiàn)異構(gòu)融合計(jì)算，是相對可行的路徑。此外，受限于單芯片所能容納的計(jì)算規(guī)模上限，目前的單芯片異構(gòu)融合計(jì)算，比較適合邊緣等相對輕量的計(jì)算場景，不太適合云計(jì)算等相對重量的計(jì)算場景。

GP-HPU，經(jīng)過“通用性”能力的強(qiáng)化設(shè)計(jì)，可以廣泛使用在邊緣服務(wù)器、AI推理服務(wù)器、存儲(chǔ)服務(wù)器、企業(yè)云服務(wù)器等輕量級場景，還可以使用在智能座艙、MEC接入設(shè)備、低速無人車等場景。

3、個(gè)人貢獻(xiàn)

作為矩向科技的創(chuàng)始人兼CEO，也作為《軟硬件融合》圖書和公眾號的主筆，我深度的參與到白皮書的策劃和撰寫工作中。

2022年底，跟工信部電子五所楊老師交流關(guān)于異構(gòu)計(jì)算的挑戰(zhàn)和未來發(fā)展趨勢，所思所想，同頻共振。針對異構(gòu)算力多樣性的挑戰(zhàn)，電子五所提出了研究課題“異構(gòu)計(jì)算融合技術(shù)發(fā)展研究”，最終落地為《異構(gòu)融合計(jì)算技術(shù)白皮書》。春節(jié)過后，我就開始積極地參與到白皮書的策劃和編寫工作中。到這次白皮書的定稿發(fā)布，前后經(jīng)歷了大半年的時(shí)間。白皮書也廣泛凝聚共識(shí)，得到了國內(nèi)眾多知名高校和企業(yè)在技術(shù)和案例等方面的大力支持。

個(gè)人最主要的貢獻(xiàn)是提出“異構(gòu)融合計(jì)算”的概念，并細(xì)化和完善其定義和內(nèi)涵。這一概念得到了與會(huì)的各位專家一致贊同?！爱悩?gòu)計(jì)算融合”是一個(gè)現(xiàn)象，一個(gè)過程；而“異構(gòu)融合計(jì)算”則是一種創(chuàng)新的理念，也是一種全新的計(jì)算架構(gòu)和計(jì)算技術(shù)，同時(shí)還是落地的解決方案。異構(gòu)融合計(jì)算，通過融合CPU和多種不同類型不同架構(gòu)的加速處理器，以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。異構(gòu)融合計(jì)算繼承自異構(gòu)計(jì)算，并向前繼續(xù)發(fā)展，成為一種新的計(jì)算架構(gòu)。異構(gòu)融合需要不同層次不同類型的軟硬件技術(shù)的深度協(xié)作，才能最終實(shí)現(xiàn)異構(gòu)融合的廣泛落地。

白皮書上述相關(guān)內(nèi)容，歡迎各界專家批評指正。

4、異構(gòu)融合計(jì)算的必然發(fā)展趨勢

一方面，業(yè)務(wù)需求驅(qū)動(dòng)。以人工智能為例，隨著BERT、GPT等大模型的快速發(fā)展，從2018年到2023年，算力需求增長進(jìn)一步加速，平均每2個(gè)月就翻一番。AI算力需求快速增長，算力芯片難以支撐：單GPU芯片逐漸性能極限；必須通過Scale Out的擴(kuò)大計(jì)算集群規(guī)模的方式提升算力；隨之而來的，AI計(jì)算成本越來越難以承受。

另一方面，工藝和封裝支撐。工藝進(jìn)步，單芯片容納的設(shè)計(jì)規(guī)模越來大；Chiplet封裝，使得在單芯片層次，可以構(gòu)建規(guī)模數(shù)量級提升的超大系統(tǒng)。

業(yè)務(wù)需求驅(qū)動(dòng)，以及底層工藝和封裝支撐，一定需要系統(tǒng)架構(gòu)層次的創(chuàng)新。

從同構(gòu)到異構(gòu)，從異構(gòu)（單異構(gòu)、多異構(gòu)）到異構(gòu)融合，系統(tǒng)架構(gòu)創(chuàng)新，是架構(gòu)從簡單到復(fù)雜、繼承并不斷發(fā)展的過程。

5、異構(gòu)融合計(jì)算的廣泛應(yīng)用場景

5.1 復(fù)雜計(jì)算系統(tǒng)

微觀上，復(fù)雜計(jì)算系統(tǒng)需要實(shí)現(xiàn)軟件和硬件的解耦。通過虛擬化，實(shí)現(xiàn)軟硬件解耦，這樣，軟件就可以無縫地跨平臺(tái)自由遷移。

微觀上，復(fù)雜計(jì)算系統(tǒng)，需要在一個(gè)硬件系統(tǒng)上支持多個(gè)軟件系統(tǒng)。通過虛擬化，實(shí)現(xiàn)計(jì)算資源的切分、池化和重組，構(gòu)建形態(tài)各異的各種邏輯計(jì)算平臺(tái)，供VM、容器等軟件實(shí)體使用。

微觀上，硬件計(jì)算平臺(tái)需要支持多種計(jì)算資源，并且需要支持這些計(jì)算資源的協(xié)同和融合。在CPU同構(gòu)計(jì)算時(shí)代，通過VT-x/VT-d等技術(shù)實(shí)現(xiàn)處理器的完全硬件虛擬化非常成熟，但如果增加了各種異構(gòu)的處理器，并且要考慮這些異構(gòu)處理器的架構(gòu)兼容性，以及它們之間的協(xié)同和融合，則是非常挑戰(zhàn)的事情。

宏觀上，復(fù)雜計(jì)算是①基于一組硬件服務(wù)器的、②運(yùn)行多個(gè)宏系統(tǒng)的、③動(dòng)態(tài)的、④交叉混合計(jì)算。

總結(jié)一下，復(fù)雜計(jì)算需要：

支持虛擬化、服務(wù)化、冷/熱遷移，從而實(shí)現(xiàn)單設(shè)備多系統(tǒng)共存，以及跨設(shè)備的多個(gè)宏系統(tǒng)的協(xié)同/融合。

單個(gè)硬件支持多個(gè)不同規(guī)格系統(tǒng)。

單個(gè)硬件計(jì)算資源的多樣性，要考慮資源的切分、池化和重組，還需要考慮不同資源間的協(xié)同和融合。

單個(gè)硬件集群支持多個(gè)宏系統(tǒng)集群，并且這些宏系統(tǒng)集群交叉混布。

數(shù)以萬計(jì)甚至百萬級的計(jì)算設(shè)備規(guī)模，完全動(dòng)態(tài)的、非常頻繁的軟硬件配置變更。

微觀上，不同系統(tǒng)的資源需求千差萬別；宏觀上，數(shù)以百萬計(jì)的系統(tǒng)，總的資源需求趨向于確定。

硬件需要足夠的一致性（盡可能少的型號/規(guī)格），在此基礎(chǔ)上實(shí)現(xiàn)具體系統(tǒng)運(yùn)行平臺(tái)的差異性。

云計(jì)算幾乎是最復(fù)雜的計(jì)算場景，復(fù)雜計(jì)算場景從云計(jì)算場景提取各種本質(zhì)的計(jì)算特征和挑戰(zhàn)，把它融入底層軟硬件設(shè)計(jì)和優(yōu)化當(dāng)中，反過來再落地到云計(jì)算，以及其他更多的復(fù)雜計(jì)算場景：

從計(jì)算的位置來說，復(fù)雜計(jì)算包括云計(jì)算、邊緣計(jì)算和自動(dòng)駕駛等超級終端場景；

從計(jì)算位置來說，超算和云計(jì)算是相似的，但兩者的計(jì)算訴求不同：超算更注重性能，云計(jì)算更注重成本。目前，兩者在不斷地侵入對方的“領(lǐng)地”，超算和云計(jì)算在不斷地融合。

智能計(jì)算，跟云計(jì)算、超算等不屬于同層次的計(jì)算。智能計(jì)算是業(yè)務(wù)應(yīng)用，智能計(jì)算可以在云、邊、端或超算領(lǐng)域。

5.2 基于異構(gòu)融合的復(fù)雜計(jì)算場景

5.2.1 場景一：云計(jì)算

目前，對算力的需求越來越高，通過Scale Out擴(kuò)大集群規(guī)模的方式提升性能代價(jià)高昂，治標(biāo)不治本。要想本質(zhì)地提高性能，還是要回到Scale Up方式。

DPU是目前數(shù)據(jù)中心的第三顆重要的芯片，通過在服務(wù)器設(shè)備級實(shí)現(xiàn)CPU眾多工作任務(wù)的卸載和加速，以此來實(shí)現(xiàn)整個(gè)服務(wù)器級別的Scale Up：

從架構(gòu)角度，CPU、GPU和DPU三芯片方案是多異構(gòu)計(jì)算架構(gòu)，很難實(shí)現(xiàn)不同加速處理器之間的協(xié)同計(jì)算。

從現(xiàn)實(shí)角度，CPU、GPU和DPU三顆芯片，通常來自于不同的公司，實(shí)現(xiàn)三者間的高效交互和深度協(xié)同比較難。

隨著Chiplet的流行和能力增強(qiáng)，通過架構(gòu)重構(gòu)和多DIE集成，進(jìn)一步優(yōu)化數(shù)據(jù)交互，并協(xié)同不同處理單元的任務(wù)分工，實(shí)現(xiàn)多個(gè)異構(gòu)資源的高效協(xié)作，在單芯片內(nèi)部實(shí)現(xiàn)異構(gòu)融合計(jì)算，是相對可行的路徑。

5.2.2 場景二：邊緣計(jì)算

在不考慮Chiplet多DIE封裝的支持下，受限于單DIE單芯片所能容納的計(jì)算規(guī)模上限，目前的單芯片異構(gòu)融合計(jì)算，比較適合邊緣等相對輕量的計(jì)算場景，不太適合云計(jì)算等相對重量的計(jì)算場景。

傳統(tǒng)的服務(wù)器以CPU為中心，然后增加高性能網(wǎng)卡、加速處理器和PCIE總線擴(kuò)展卡等其他組件，成本非常高。并且，受限于多芯片交互，綜合性能也會(huì)有影響。異構(gòu)融合處理器，可以實(shí)現(xiàn)邊緣等輕量計(jì)算場景的單芯片解決方案，可以實(shí)現(xiàn)最極致的性能的同時(shí)，最低的成本。并且在功耗和物理空間方面都有非常大的優(yōu)勢（功耗和物理空間優(yōu)勢，可以實(shí)現(xiàn)高密度計(jì)算，進(jìn)一步優(yōu)化成本，并進(jìn)一步降低對數(shù)據(jù)中心基礎(chǔ)設(shè)施的要求）。

5.2.3 場景三：自動(dòng)駕駛等超級終端

上圖是BOSCH給出的汽車電氣架構(gòu)演進(jìn)示意圖。從模塊級的ECU到集中相關(guān)功能的域控制器，再到完全集中的車載計(jì)算機(jī)。

未來的智能汽車，越來越像一臺(tái)服務(wù)器。

汽車越來越像服務(wù)器，因此目前汽車技術(shù)的發(fā)展，本質(zhì)上是云計(jì)算數(shù)據(jù)中心的各種技術(shù)的不斷下沉，比如，虛擬化、SOA、軟件定義等技術(shù)。如上圖：在DCU時(shí)代，一個(gè)DCU支持一個(gè)系統(tǒng)；但在CCU時(shí)代，通過虛擬化，實(shí)現(xiàn)一個(gè)芯片支持多個(gè)不同類型的系統(tǒng)，實(shí)現(xiàn)兼容現(xiàn)有軟件的同時(shí)，還可以實(shí)現(xiàn)更高效的交互。并且，單芯片的綜合成本也是最低。

隨著AI大模型在自動(dòng)駕駛算法中逐漸落地，汽車CCU對算力的需求水漲船高。汽車CCU芯片也是異構(gòu)融合計(jì)算非常典型的應(yīng)用領(lǐng)域。

以NVIDIA THOR為例：THOR設(shè)計(jì)思路是完全的“終局思維”，相比BOSCH給出的一步步的演進(jìn)的思路，跨越集中式的車載計(jì)算機(jī)和云端協(xié)同的車載計(jì)算機(jī)，直接到達(dá)云端融合的車載計(jì)算機(jī)。云端融合的意思是服務(wù)可以動(dòng)態(tài)的、自適應(yīng)的運(yùn)行在云或端，方便云端的資源動(dòng)態(tài)調(diào)節(jié)。THOR采用的是跟云端完全一致的計(jì)算架構(gòu)：Grace-next CPU、Ampere-next GPU以及Bluefield DPU，硬件上可以做到云和端的融合。

5.2.4 場景四：超算HPC

基于CPU計(jì)算，實(shí)現(xiàn)千萬億次（P級超算）超算已經(jīng)非常困難。從天河1A開始，很多超算逐漸開始采用異構(gòu)計(jì)算架構(gòu)。而到了百億億次（E級超算），異構(gòu)計(jì)算已經(jīng)是必選項(xiàng)，所有的超算架構(gòu)均采用異構(gòu)計(jì)算。但是，異構(gòu)計(jì)算也有瓶頸，面向下一代十萬億億次超算（Z級超算），異構(gòu)計(jì)算已經(jīng)無法滿足要求，大家把目光都投向了異構(gòu)融合計(jì)算。

拭目以待！

5.2.5 場景五：智能計(jì)算

智能計(jì)算，是業(yè)務(wù)應(yīng)用層次的計(jì)算。可以承載到云計(jì)算、邊緣計(jì)算、終端計(jì)算，或者超算。但考慮到隨著大模型的發(fā)展，AI算力要求越來越高，有必要針對AI計(jì)算，專門構(gòu)建高效的計(jì)算架構(gòu)和系統(tǒng)。

隨著GPU的性能提升放緩，而AI算力需求仍然2個(gè)月翻番，所以只能通過擴(kuò)規(guī)模的方式提升整體算力。但受阿姆達(dá)爾定律影響，這種方式也會(huì)逐漸到底。

并且，傳統(tǒng)以CPU為中心的服務(wù)器計(jì)算架構(gòu)，存在一些問題：I/O帶寬低、路徑長；CPU是性能的瓶頸；擴(kuò)展性差；等等。

要想顯著的提升AI計(jì)算的性能，需要芯片層次異構(gòu)融合優(yōu)化：

Scale Up：最本質(zhì)的，提升單節(jié)點(diǎn)性能。在工藝成本等因素約束下，提升性能只能從系統(tǒng)架構(gòu)/微架構(gòu)方面挖潛（異構(gòu)融合架構(gòu)）。

Scale Out：擴(kuò)大集群規(guī)模，需要增強(qiáng)集群的內(nèi)聯(lián)交互；更高的帶寬，更高性能的網(wǎng)絡(luò)。

通用性：AI算法快速迭代，每家算法差異性巨大。芯片需要足夠通用性，適配算法的差異性和快速迭代。

成本優(yōu)化：GPU性能極限，ChatGPT需要上萬張GPU卡，成本高昂。成本降低的手段：通用、集成度、擴(kuò)展性等。

5.3 綜合計(jì)算場景

5.3.1 汽車智能網(wǎng)聯(lián)

清華李克強(qiáng)院士，給出智能網(wǎng)聯(lián)汽車“中國方案”，其主旨要義是車路云深度協(xié)同的一體化。異構(gòu)融合計(jì)算，可以實(shí)現(xiàn)云和邊緣側(cè)的大算力芯片，還可以實(shí)現(xiàn)終端側(cè)的大算力單芯片。同時(shí)，需要考慮復(fù)雜計(jì)算場景的各種要求，從芯片架構(gòu)層次，原生的支持云、邊、端深度協(xié)同。

5.3.2 云網(wǎng)邊端融合

汽車智能網(wǎng)聯(lián)是一個(gè)具體場景，把場景泛化，還有很多場景，如手機(jī)移動(dòng)終端、元宇宙XR、數(shù)字工廠、數(shù)字城市、數(shù)字生活等，都需要終端和云端、邊緣端的深度協(xié)同。因此，站在計(jì)算的角度，最終云網(wǎng)邊端需要深度融合成“一個(gè)”超級大系統(tǒng)，來滿足幾乎“所有”計(jì)算需求。

云、網(wǎng)、邊、端不同計(jì)算的位置，是我們?nèi)藶閯澐值?，不管在什么位置，它都是一個(gè)符合計(jì)算機(jī)架構(gòu)的計(jì)算設(shè)備。因此，我們可以構(gòu)建一個(gè)統(tǒng)一的異構(gòu)融合計(jì)算的架構(gòu)，來實(shí)現(xiàn)云網(wǎng)邊端計(jì)算和開發(fā)軟件的一致，來實(shí)現(xiàn)計(jì)算任務(wù)可以隨時(shí)跨平臺(tái)運(yùn)行，來實(shí)現(xiàn)云網(wǎng)邊端的深度融合。

6?凝聚共識(shí)，共謀發(fā)展

6.1 構(gòu)建異構(gòu)融合開放計(jì)算生態(tài)

一方面，按照處理器靈活性，從左向右，處理器的類型越多，架構(gòu)的數(shù)量和種類也越多。不同類型、不同領(lǐng)域、不同場景、不同廠家、不同架構(gòu)的處理器，會(huì)導(dǎo)致處理器架構(gòu)的完全碎片化；另一方面，處理器需要支持?jǐn)?shù)據(jù)中心內(nèi)部的集群計(jì)算，還需要支持跨云網(wǎng)邊端的融合計(jì)算，這對處理器架構(gòu)一致性提出了很高的要求。兩方面的挑戰(zhàn)，在異構(gòu)融合計(jì)算時(shí)代，構(gòu)建統(tǒng)一的計(jì)算架構(gòu)變得非常的困難。

需要在行業(yè)內(nèi)廣泛凝聚共識(shí)，實(shí)現(xiàn)統(tǒng)一的系統(tǒng)架構(gòu)接口，才能實(shí)現(xiàn)多樣性計(jì)算資源的協(xié)同，從而實(shí)現(xiàn)資源的切分、池化和共享，以及平臺(tái)的融合。

異構(gòu)融合計(jì)算時(shí)代，不存在封閉的計(jì)算生態(tài)。要想成功，開放標(biāo)準(zhǔn)的架構(gòu)和生態(tài)，是某個(gè)具體公司和整個(gè)產(chǎn)業(yè)成功的必由發(fā)展之路。

6.2 抓住技術(shù)變革的歷史時(shí)機(jī)

大算力芯片最核心的能力是通用性，而通用計(jì)算存在的基礎(chǔ)是“二八定律”無處不在：隨著系統(tǒng)的擴(kuò)大，會(huì)逐漸沉淀許多共性的計(jì)算任務(wù)。依據(jù)二八定律，對三個(gè)階段進(jìn)行定性的分析：

在CPU同構(gòu)計(jì)算階段，100%工作由CPU完成；

在GPU異構(gòu)階段，80%工作由GPU完成，CPU只完成剩余的20%的工作；

異構(gòu)融合計(jì)算階段，80%工作由各類更高效的DSA完成，GPU只完成剩余20%工作的80%，即16%的工作，剩余的4%交給CPU。

CPU是上世紀(jì)70年代發(fā)明的，國內(nèi)最早的龍芯CPU是2002年投片成功的，在CPU領(lǐng)域國內(nèi)至少晚了30年時(shí)間。GPGPU是2006年NVIDIA發(fā)布的Tesla架構(gòu)GPU，國內(nèi)則是近幾年才有諸多初創(chuàng)公司開始在此領(lǐng)域發(fā)力的，晚了差不多15年時(shí)間。

第一代通用計(jì)算是CPU同構(gòu)，成就了Intel的王者地位；第二代通用計(jì)算是GPU異構(gòu)，隨著AI大模型的火爆NVIDIA市值超過了10000億美金，遠(yuǎn)超Intel、AMD和高通的總和。第一代和第二代通用計(jì)算CPU、GPU，我們已經(jīng)落后，目前國內(nèi)有眾多公司重?fù)?dān)在肩，在拼命追趕。

在一個(gè)非常成熟的領(lǐng)域，要想追趕先進(jìn)，非常的困難。但在行業(yè)重大技術(shù)變革期，就是趕超的絕好時(shí)機(jī)。

異構(gòu)融合計(jì)算的發(fā)展機(jī)會(huì)，使得在計(jì)算機(jī)體系結(jié)構(gòu)和算力芯片的架構(gòu)創(chuàng)新方面，國內(nèi)首次有了和國際先進(jìn)水平站在同一個(gè)起跑線的機(jī)會(huì)。歷史機(jī)遇稍縱即逝，我們需要站在國家戰(zhàn)略的高度，快馬加鞭，加大投入。

7、白皮書下載

工信部電子五所官方下載：

#白皮書獲取方式# 發(fā)送“獲取《異構(gòu)融合計(jì)算技術(shù)白皮書》”至郵箱: saibao2022@163.com

“軟硬件融合”公眾號下載：

公眾號回復(fù)“白皮書”下載。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
50125-8000	1	Molex	Wire Terminal,	ECAD模型下載ECAD模型	$0.06	查看
2N7002BKS,115	1	NXP Semiconductors	2N7002BKS - 60 V, 300 mA dual N-channel Trench MOSFET TSSOP 6-Pin		$0.4	查看
BSS138BK,215	1	NXP Semiconductors	BSS138BK - 60 V, 360 mA N-channel Trench MOSFET TO-236 3-Pin		$0.26	查看

這可能是計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域一個(gè)重要的里程碑事件

1、《異構(gòu)融合計(jì)算技術(shù)白皮書》重磅發(fā)布