加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 一、什么是并行處理單元?
    • 二、擁有三大核心優(yōu)勢(shì)
    • 三、100倍的CPU性能提升是如何實(shí)現(xiàn)的?
    • 四、提升現(xiàn)有軟件和應(yīng)用程序的性能
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

CPU 2.0時(shí)代來(lái)了?Flow PPU可使任何CPU性能提升100倍!

06/13 16:59
3451
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

6月13日消息,近日芬蘭著名的 VTT 技術(shù)研究中心旗下的一家科技初創(chuàng)公司Flow Computing宣布一則爆炸性的聲明稱,其推出的并行處理單元 (PPU)可以“使任何 CPU 架構(gòu)的性能提高 100 倍”!

據(jù)介紹,F(xiàn)low的FPU能夠集成到任何當(dāng)前已有或即將推出的CPU設(shè)計(jì)架構(gòu)、指令集或工藝幾何結(jié)構(gòu)中,可提供革命性的 100 倍加速,可立即用于基于馮·諾依曼的標(biāo)準(zhǔn)計(jì)算機(jī)設(shè)計(jì),以實(shí)現(xiàn)“CPU 2.0”級(jí)別的吞吐量。PPU還消除了在高性能應(yīng)用程序中對(duì) CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。

Flow稱,片上集成的 PPU 內(nèi)核越多,獲得的性能提升就越高。同時(shí),SoC當(dāng)中的其他計(jì)算單元也將受益于PPU的性能的提升,以及PPU對(duì)CPU性能的提升。

此外,通過(guò)Flow提供的編譯器對(duì) PPU 進(jìn)行重新編譯,PPU 與該 CPU 架構(gòu)的每個(gè)現(xiàn)有軟件應(yīng)用程序可完全向后兼容,可以大大加速所有現(xiàn)有軟件和應(yīng)用程序中的現(xiàn)有并行功能,而無(wú)需更改任何軟件。

從應(yīng)用來(lái)看,F(xiàn)low的突破性架構(gòu)將可增強(qiáng)嵌入式系統(tǒng)數(shù)據(jù)中心的性能,適用于邊緣和云計(jì)算AI 云、跨 5G/6G 的多媒體編解碼器自動(dòng)駕駛汽車系統(tǒng)、軍用級(jí)計(jì)算等用途。

目前,F(xiàn)low 已經(jīng)在與來(lái)自世界各地的主要半導(dǎo)體供應(yīng)商進(jìn)行初步討論,以尋求下一代 CPU 性能的“圣杯”。更多技術(shù)細(xì)節(jié)將在 2024 年下半年公開分享。

Flow Computing聯(lián)合創(chuàng)始人兼首席執(zhí)行官Timo Valtonen表示:“在過(guò)去的幾十年里,CPU性能只有漸進(jìn)式的改進(jìn),這導(dǎo)致了CPU實(shí)際上已成為計(jì)算中最薄弱的環(huán)節(jié),因?yàn)樗捻樞蚣軜?gòu)并不理想。為了滿足對(duì)更多計(jì)算性能的不斷增長(zhǎng)的需求,CPU性能的新時(shí)代已成為必要條件,這在很大程度上是由人工智能以及邊緣和云計(jì)算的需求推動(dòng)的。Flow 打算通過(guò)其全新的并行性能單元 (PPU) 架構(gòu)引領(lǐng) SuperCPU 革命,使任何 CPU 的性能提升 100 倍,無(wú)論架構(gòu)如何,并具有完全的向后軟件兼容性?!?/p>

Butterfly Ventures的合伙人兼聯(lián)合創(chuàng)始人Juho Risku也表示:“由于CPU改進(jìn)速度在過(guò)去十年中放緩,科技行業(yè)的每個(gè)行業(yè)都繼續(xù)受到影響。Flow 是這一趨勢(shì)的第一個(gè)重大變革者,它提供了數(shù)倍的性能,而不是幾個(gè)百分點(diǎn)。而且在我們看來(lái),F(xiàn)low 將對(duì)計(jì)算市場(chǎng)的基線性能產(chǎn)生比量子計(jì)算等更廣泛的影響。盡管很多公司在人工智能方面投入了大量資金,但通用計(jì)算將主導(dǎo)其成本并限制其能力。Flow Computing正在通過(guò)使下一代SuperCPU輕松超越當(dāng)前的行業(yè)領(lǐng)導(dǎo)者,如Apple M系列,Nvidia Grace,Google Axion和Microsoft Azure Cobalt 100來(lái)解決這個(gè)問(wèn)題,“

據(jù)悉,F(xiàn)low公司剛剛獲得了 400 萬(wàn)歐元的種子輪融資。參與種子輪融資的實(shí)體包括Butterfly Ventures(領(lǐng)投)、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬蘭商務(wù)促進(jìn)局。

一、什么是并行處理單元?

據(jù)Flow公司官網(wǎng)介紹,并行處理單元 (PPU) 是一個(gè) IP 模塊,可以與同一芯片上的 CPU 緊密集成。它被設(shè)計(jì)為高度可配置,以滿足眾多用例的特定要求。

支持的自定義選項(xiàng)包括:

PPU 中的內(nèi)核數(shù)(4、16、64、256 等)

功能單元的數(shù)量和類型(如 ALU、PPU、MU、GU、NU)

片上存儲(chǔ)器資源(緩存、緩沖區(qū)、暫存器)的大小

對(duì)指令集進(jìn)行了修改,以補(bǔ)充 CPU 的指令集擴(kuò)展

對(duì) CPU 的修改很少,包括將 PPU 接口集成到指令集中,并可更新 CPU 內(nèi)核的數(shù)量,以利用新的性能水平。

Flow的參數(shù)化設(shè)計(jì)允許廣泛的定制,包括 PPU 內(nèi)核的數(shù)量、功能單元的種類和數(shù)量以及片上存儲(chǔ)器資源的大小。性能會(huì)隨著 PPU 內(nèi)核數(shù)量的增加而增加。4 核的 PPU 非常適合智能手表等小型設(shè)備,16 核 PPU 非常適合智能手機(jī),而 64 核 PPU 可為 PC 提供出色的性能;256 核 PPU 最適合 AI、云和邊緣計(jì)算服務(wù)器等高需求環(huán)境,使它們能夠輕松處理最苛刻的計(jì)算任務(wù)。

二、擁有三大核心優(yōu)勢(shì)

據(jù)介紹,F(xiàn)low的并行處理單元 (PPU)具有三大核心優(yōu)勢(shì):

1、Flow 創(chuàng)新的并行處理單元 (PPU) 將 CPU 性能提升 100 倍,開創(chuàng)了 SuperCPU 時(shí)代。

創(chuàng)新的并行處理單元 (PPU)專為完全向后兼容而設(shè)計(jì),可在重新編譯后增強(qiáng)現(xiàn)有軟件和應(yīng)用程序。功能越并行,性能提升就越大。

同時(shí),F(xiàn)low的技術(shù)還增強(qiáng)了整個(gè)計(jì)算生態(tài)系統(tǒng)。比如,輔助組件(矩陣單元、矢量單元、NPU 和 GPU)也可通過(guò)增強(qiáng)的 CPU 功能獲得了增強(qiáng)的性能。這一切都要?dú)w功于 PPU。

2、傳統(tǒng)軟件和應(yīng)用程序速度提高 2 倍

Flow 的 PPU 不僅可以在不改變?cè)紤?yīng)用程序的情況下增強(qiáng)遺留代碼,而且在與重新編譯的操作系統(tǒng)或編程系統(tǒng)庫(kù)配對(duì)時(shí)也能提高性能。

因此,PPU可以幫助各種應(yīng)用程序中大幅提高速度,特別是那些顯示并行性但受到傳統(tǒng)基于線程的處理限制的應(yīng)用程序。PPU 釋放了這些應(yīng)用的全部潛力,而在以前的架構(gòu)終無(wú)法實(shí)現(xiàn)這樣的性能顯著提升。

3、參數(shù)化設(shè)計(jì)

可配置的參數(shù)化設(shè)計(jì)使PPU能夠適應(yīng)多種用途。一切都可以定制,以滿足多個(gè)用例的特定要求。PPU 內(nèi)核數(shù)支持4核、16核、64核、256核或更多功能單元(如 ALU、PPU、MU、GU 和 NU)的類型和數(shù)量。甚至片上存儲(chǔ)器資源(緩存、緩沖區(qū)和暫存器)的大小也可以根據(jù)特定要求進(jìn)行定制。性能的可擴(kuò)展性與 PPU 內(nèi)核的數(shù)量直接相關(guān)。

三、100倍的CPU性能提升是如何實(shí)現(xiàn)的?

那么,F(xiàn)low公司是如何通過(guò)其PPU來(lái)實(shí)現(xiàn)對(duì)于CPU性能100倍提升的呢?據(jù)介紹,F(xiàn)low解決了 CPU 面臨的延遲、同步和虛擬級(jí)并行性方面的挑戰(zhàn),在這些技術(shù)中的創(chuàng)新和關(guān)鍵專利被實(shí)施到 PPU 中,它們將共同推動(dòng)CPU實(shí)現(xiàn) 100 倍的性能提升。

1、延遲隱藏

當(dāng)前馮·諾依曼架構(gòu)的多核 CPU面臨內(nèi)存訪問(wèn)延遲問(wèn)題,尤其是共享訪問(wèn),對(duì)多核 CPU 來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。頻繁的內(nèi)存存取會(huì)減慢執(zhí)行速度,核心間通信網(wǎng)絡(luò)會(huì)導(dǎo)致額外的延遲。傳統(tǒng)的緩存層次結(jié)構(gòu)會(huì)導(dǎo)致一致性和可伸縮性問(wèn)題。

Flow公司的PPU則是將內(nèi)存引用的延遲,通過(guò)在訪問(wèn)內(nèi)存時(shí)執(zhí)行其他線程來(lái)進(jìn)行隱藏。這沒(méi)有一致性問(wèn)題,因?yàn)闆](méi)有緩存放置在網(wǎng)絡(luò)的前面??蓴U(kuò)展性通過(guò)高帶寬片上網(wǎng)絡(luò)提供。

2、同步

當(dāng)前多核 CPU使用并行性會(huì)帶來(lái)額外的挑戰(zhàn)。由于 CPU 處理器內(nèi)核固有的異步性,每當(dāng)存在線程間依賴關(guān)系時(shí),就需要同步線程。這些同步代價(jià)很大,通常需要 100 到 1000 個(gè)時(shí)鐘周期。

相比之下, PPU每個(gè)步驟只需要同步一次,因?yàn)榫€程在一個(gè)步驟中彼此獨(dú)立,將開銷成本降低到 1。同步與執(zhí)行重疊,將開銷成本降低到 1/100。

3、虛擬ILP/LLP

當(dāng)前多核 CPU對(duì)低級(jí)并行性的次優(yōu)處理。只有當(dāng)指令是獨(dú)立的時(shí),才能在多個(gè)功能單元中執(zhí)行多個(gè)指令。管道危險(xiǎn)會(huì)減慢指令執(zhí)行速度。

相比之下,PPU功能單元被組織為一個(gè)鏈,其中單元可以使用其前身的結(jié)果作為操作數(shù)??梢栽趫?zhí)行的一個(gè)步驟內(nèi)執(zhí)行依賴代碼,消除管道危險(xiǎn)。

四、提升現(xiàn)有軟件和應(yīng)用程序的性能

Flow技術(shù)完全向后兼容所有現(xiàn)有的傳統(tǒng)軟件和應(yīng)用程序。PPU 的編譯器會(huì)自動(dòng)識(shí)別代碼的并行部分,并在 PPU 內(nèi)核中執(zhí)行這些部分。

此外,F(xiàn)low 正在開發(fā)一種 AI 工具,以幫助應(yīng)用程序和軟件開發(fā)人員識(shí)別代碼的并行部分,并提出簡(jiǎn)化這些部分以實(shí)現(xiàn)最大性能的方法。

小結(jié):

雖然Flow表示其PPU能夠?yàn)槿魏萎?dāng)前的馮·諾依曼架構(gòu)的CPU帶來(lái)最高100倍的性能提升,但是并未給出明確的指標(biāo)數(shù)據(jù)來(lái)進(jìn)行解釋,只是說(shuō)明了會(huì)從延遲、同步和虛擬ILP/LLP等方面進(jìn)行入手來(lái)進(jìn)行改進(jìn)。并且正如其官網(wǎng)所介紹的,PPU還擁有4到256核的配置,需要配備多少核PPU才能帶來(lái)100倍性能提升,F(xiàn)low并未解釋。另外,軟件的重新編譯也是實(shí)現(xiàn) 100 倍性能改進(jìn)的必要條件。該公司表示,軟件的重新編譯可以使得現(xiàn)有代碼的運(yùn)行速度將提高 2 倍。

另外,PPU是并行處理單元,而GPU的優(yōu)勢(shì)也是在于并行計(jì)算。Flow甚至還表示,PPU消除了在高性能應(yīng)用程序中對(duì) CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。那么是否意味著,CPU+PPU的組合在某種程度上可以實(shí)現(xiàn)超越GPU的AI加速能力?

Flow還在一份常見問(wèn)題解答文檔中解釋了其 PPU 與現(xiàn)代 GPU 之間的主要區(qū)別?!癙PU 針對(duì)并行處理進(jìn)行了優(yōu)化,而 GPU 針對(duì)圖形處理進(jìn)行了優(yōu)化?!边@家初創(chuàng)公司對(duì)比稱:“PPU 與 CPU 的集成度更高,你可以將其視為一種協(xié)處理器,而 GPU 是一個(gè)獨(dú)立計(jì)算單元,與 CPU 的連接更為松散?!彼€強(qiáng)調(diào)了 PPU 不需要單獨(dú)內(nèi)核及其可變并行寬度的重要性。

Flow表示,它將在今年下半年提供有關(guān)PPU的更多技術(shù)細(xì)節(jié)。至于Flow PPU的商業(yè)化進(jìn)展,它提到了與 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 強(qiáng)調(diào)了其對(duì) IP 許可模式的偏好,類似于Arm的授權(quán)模式,客戶需要付費(fèi)獲取其PPU IP,以便嵌入到其CPU設(shè)計(jì)當(dāng)中。

編輯:芯智訊-浪客劍

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32H743VIT6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無(wú)數(shù)據(jù) 查看
STM32F405RGT6W 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator

ECAD模型

下載ECAD模型
$14.1 查看
STM32H743XIH6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無(wú)數(shù)據(jù) 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜