6月13日消息,近日芬蘭著名的 VTT 技術(shù)研究中心旗下的一家科技初創(chuàng)公司Flow Computing宣布一則爆炸性的聲明稱,其推出的并行處理單元 (PPU)可以“使任何 CPU 架構(gòu)的性能提高 100 倍”!
據(jù)介紹,F(xiàn)low的FPU能夠集成到任何當(dāng)前已有或即將推出的CPU設(shè)計(jì)架構(gòu)、指令集或工藝幾何結(jié)構(gòu)中,可提供革命性的 100 倍加速,可立即用于基于馮·諾依曼的標(biāo)準(zhǔn)計(jì)算機(jī)設(shè)計(jì),以實(shí)現(xiàn)“CPU 2.0”級(jí)別的吞吐量。PPU還消除了在高性能應(yīng)用程序中對(duì) CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。
Flow稱,片上集成的 PPU 內(nèi)核越多,獲得的性能提升就越高。同時(shí),SoC當(dāng)中的其他計(jì)算單元也將受益于PPU的性能的提升,以及PPU對(duì)CPU性能的提升。
此外,通過(guò)Flow提供的編譯器對(duì) PPU 進(jìn)行重新編譯,PPU 與該 CPU 架構(gòu)的每個(gè)現(xiàn)有軟件應(yīng)用程序可完全向后兼容,可以大大加速所有現(xiàn)有軟件和應(yīng)用程序中的現(xiàn)有并行功能,而無(wú)需更改任何軟件。
從應(yīng)用來(lái)看,F(xiàn)low的突破性架構(gòu)將可增強(qiáng)嵌入式系統(tǒng)和數(shù)據(jù)中心的性能,適用于邊緣和云計(jì)算、AI 云、跨 5G/6G 的多媒體編解碼器、自動(dòng)駕駛汽車系統(tǒng)、軍用級(jí)計(jì)算等用途。
目前,F(xiàn)low 已經(jīng)在與來(lái)自世界各地的主要半導(dǎo)體供應(yīng)商進(jìn)行初步討論,以尋求下一代 CPU 性能的“圣杯”。更多技術(shù)細(xì)節(jié)將在 2024 年下半年公開分享。
Flow Computing聯(lián)合創(chuàng)始人兼首席執(zhí)行官Timo Valtonen表示:“在過(guò)去的幾十年里,CPU性能只有漸進(jìn)式的改進(jìn),這導(dǎo)致了CPU實(shí)際上已成為計(jì)算中最薄弱的環(huán)節(jié),因?yàn)樗捻樞蚣軜?gòu)并不理想。為了滿足對(duì)更多計(jì)算性能的不斷增長(zhǎng)的需求,CPU性能的新時(shí)代已成為必要條件,這在很大程度上是由人工智能以及邊緣和云計(jì)算的需求推動(dòng)的。Flow 打算通過(guò)其全新的并行性能單元 (PPU) 架構(gòu)引領(lǐng) SuperCPU 革命,使任何 CPU 的性能提升 100 倍,無(wú)論架構(gòu)如何,并具有完全的向后軟件兼容性?!?/p>
Butterfly Ventures的合伙人兼聯(lián)合創(chuàng)始人Juho Risku也表示:“由于CPU改進(jìn)速度在過(guò)去十年中放緩,科技行業(yè)的每個(gè)行業(yè)都繼續(xù)受到影響。Flow 是這一趨勢(shì)的第一個(gè)重大變革者,它提供了數(shù)倍的性能,而不是幾個(gè)百分點(diǎn)。而且在我們看來(lái),F(xiàn)low 將對(duì)計(jì)算市場(chǎng)的基線性能產(chǎn)生比量子計(jì)算等更廣泛的影響。盡管很多公司在人工智能方面投入了大量資金,但通用計(jì)算將主導(dǎo)其成本并限制其能力。Flow Computing正在通過(guò)使下一代SuperCPU輕松超越當(dāng)前的行業(yè)領(lǐng)導(dǎo)者,如Apple M系列,Nvidia Grace,Google Axion和Microsoft Azure Cobalt 100來(lái)解決這個(gè)問(wèn)題,“
據(jù)悉,F(xiàn)low公司剛剛獲得了 400 萬(wàn)歐元的種子輪融資。參與種子輪融資的實(shí)體包括Butterfly Ventures(領(lǐng)投)、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬蘭商務(wù)促進(jìn)局。
一、什么是并行處理單元?
據(jù)Flow公司官網(wǎng)介紹,并行處理單元 (PPU) 是一個(gè) IP 模塊,可以與同一芯片上的 CPU 緊密集成。它被設(shè)計(jì)為高度可配置,以滿足眾多用例的特定要求。
支持的自定義選項(xiàng)包括:
PPU 中的內(nèi)核數(shù)(4、16、64、256 等)
功能單元的數(shù)量和類型(如 ALU、PPU、MU、GU、NU)
片上存儲(chǔ)器資源(緩存、緩沖區(qū)、暫存器)的大小
對(duì)指令集進(jìn)行了修改,以補(bǔ)充 CPU 的指令集擴(kuò)展
對(duì) CPU 的修改很少,包括將 PPU 接口集成到指令集中,并可更新 CPU 內(nèi)核的數(shù)量,以利用新的性能水平。
Flow的參數(shù)化設(shè)計(jì)允許廣泛的定制,包括 PPU 內(nèi)核的數(shù)量、功能單元的種類和數(shù)量以及片上存儲(chǔ)器資源的大小。性能會(huì)隨著 PPU 內(nèi)核數(shù)量的增加而增加。4 核的 PPU 非常適合智能手表等小型設(shè)備,16 核 PPU 非常適合智能手機(jī),而 64 核 PPU 可為 PC 提供出色的性能;256 核 PPU 最適合 AI、云和邊緣計(jì)算服務(wù)器等高需求環(huán)境,使它們能夠輕松處理最苛刻的計(jì)算任務(wù)。
二、擁有三大核心優(yōu)勢(shì)
據(jù)介紹,F(xiàn)low的并行處理單元 (PPU)具有三大核心優(yōu)勢(shì):
1、Flow 創(chuàng)新的并行處理單元 (PPU) 將 CPU 性能提升 100 倍,開創(chuàng)了 SuperCPU 時(shí)代。
創(chuàng)新的并行處理單元 (PPU)專為完全向后兼容而設(shè)計(jì),可在重新編譯后增強(qiáng)現(xiàn)有軟件和應(yīng)用程序。功能越并行,性能提升就越大。
同時(shí),F(xiàn)low的技術(shù)還增強(qiáng)了整個(gè)計(jì)算生態(tài)系統(tǒng)。比如,輔助組件(矩陣單元、矢量單元、NPU 和 GPU)也可通過(guò)增強(qiáng)的 CPU 功能獲得了增強(qiáng)的性能。這一切都要?dú)w功于 PPU。
2、傳統(tǒng)軟件和應(yīng)用程序速度提高 2 倍
Flow 的 PPU 不僅可以在不改變?cè)紤?yīng)用程序的情況下增強(qiáng)遺留代碼,而且在與重新編譯的操作系統(tǒng)或編程系統(tǒng)庫(kù)配對(duì)時(shí)也能提高性能。
因此,PPU可以幫助各種應(yīng)用程序中大幅提高速度,特別是那些顯示并行性但受到傳統(tǒng)基于線程的處理限制的應(yīng)用程序。PPU 釋放了這些應(yīng)用的全部潛力,而在以前的架構(gòu)終無(wú)法實(shí)現(xiàn)這樣的性能顯著提升。
3、參數(shù)化設(shè)計(jì)
可配置的參數(shù)化設(shè)計(jì)使PPU能夠適應(yīng)多種用途。一切都可以定制,以滿足多個(gè)用例的特定要求。PPU 內(nèi)核數(shù)支持4核、16核、64核、256核或更多功能單元(如 ALU、PPU、MU、GU 和 NU)的類型和數(shù)量。甚至片上存儲(chǔ)器資源(緩存、緩沖區(qū)和暫存器)的大小也可以根據(jù)特定要求進(jìn)行定制。性能的可擴(kuò)展性與 PPU 內(nèi)核的數(shù)量直接相關(guān)。
三、100倍的CPU性能提升是如何實(shí)現(xiàn)的?
那么,F(xiàn)low公司是如何通過(guò)其PPU來(lái)實(shí)現(xiàn)對(duì)于CPU性能100倍提升的呢?據(jù)介紹,F(xiàn)low解決了 CPU 面臨的延遲、同步和虛擬級(jí)并行性方面的挑戰(zhàn),在這些技術(shù)中的創(chuàng)新和關(guān)鍵專利被實(shí)施到 PPU 中,它們將共同推動(dòng)CPU實(shí)現(xiàn) 100 倍的性能提升。
1、延遲隱藏
當(dāng)前馮·諾依曼架構(gòu)的多核 CPU面臨內(nèi)存訪問(wèn)延遲問(wèn)題,尤其是共享訪問(wèn),對(duì)多核 CPU 來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。頻繁的內(nèi)存存取會(huì)減慢執(zhí)行速度,核心間通信網(wǎng)絡(luò)會(huì)導(dǎo)致額外的延遲。傳統(tǒng)的緩存層次結(jié)構(gòu)會(huì)導(dǎo)致一致性和可伸縮性問(wèn)題。
Flow公司的PPU則是將內(nèi)存引用的延遲,通過(guò)在訪問(wèn)內(nèi)存時(shí)執(zhí)行其他線程來(lái)進(jìn)行隱藏。這沒(méi)有一致性問(wèn)題,因?yàn)闆](méi)有緩存放置在網(wǎng)絡(luò)的前面??蓴U(kuò)展性通過(guò)高帶寬片上網(wǎng)絡(luò)提供。
2、同步
當(dāng)前多核 CPU使用并行性會(huì)帶來(lái)額外的挑戰(zhàn)。由于 CPU 處理器內(nèi)核固有的異步性,每當(dāng)存在線程間依賴關(guān)系時(shí),就需要同步線程。這些同步代價(jià)很大,通常需要 100 到 1000 個(gè)時(shí)鐘周期。
相比之下, PPU每個(gè)步驟只需要同步一次,因?yàn)榫€程在一個(gè)步驟中彼此獨(dú)立,將開銷成本降低到 1。同步與執(zhí)行重疊,將開銷成本降低到 1/100。
3、虛擬ILP/LLP
當(dāng)前多核 CPU對(duì)低級(jí)并行性的次優(yōu)處理。只有當(dāng)指令是獨(dú)立的時(shí),才能在多個(gè)功能單元中執(zhí)行多個(gè)指令。管道危險(xiǎn)會(huì)減慢指令執(zhí)行速度。
相比之下,PPU功能單元被組織為一個(gè)鏈,其中單元可以使用其前身的結(jié)果作為操作數(shù)??梢栽趫?zhí)行的一個(gè)步驟內(nèi)執(zhí)行依賴代碼,消除管道危險(xiǎn)。
四、提升現(xiàn)有軟件和應(yīng)用程序的性能
Flow技術(shù)完全向后兼容所有現(xiàn)有的傳統(tǒng)軟件和應(yīng)用程序。PPU 的編譯器會(huì)自動(dòng)識(shí)別代碼的并行部分,并在 PPU 內(nèi)核中執(zhí)行這些部分。
此外,F(xiàn)low 正在開發(fā)一種 AI 工具,以幫助應(yīng)用程序和軟件開發(fā)人員識(shí)別代碼的并行部分,并提出簡(jiǎn)化這些部分以實(shí)現(xiàn)最大性能的方法。
小結(jié):
雖然Flow表示其PPU能夠?yàn)槿魏萎?dāng)前的馮·諾依曼架構(gòu)的CPU帶來(lái)最高100倍的性能提升,但是并未給出明確的指標(biāo)數(shù)據(jù)來(lái)進(jìn)行解釋,只是說(shuō)明了會(huì)從延遲、同步和虛擬ILP/LLP等方面進(jìn)行入手來(lái)進(jìn)行改進(jìn)。并且正如其官網(wǎng)所介紹的,PPU還擁有4到256核的配置,需要配備多少核PPU才能帶來(lái)100倍性能提升,F(xiàn)low并未解釋。另外,軟件的重新編譯也是實(shí)現(xiàn) 100 倍性能改進(jìn)的必要條件。該公司表示,軟件的重新編譯可以使得現(xiàn)有代碼的運(yùn)行速度將提高 2 倍。
另外,PPU是并行處理單元,而GPU的優(yōu)勢(shì)也是在于并行計(jì)算。Flow甚至還表示,PPU消除了在高性能應(yīng)用程序中對(duì) CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。那么是否意味著,CPU+PPU的組合在某種程度上可以實(shí)現(xiàn)超越GPU的AI加速能力?
Flow還在一份常見問(wèn)題解答文檔中解釋了其 PPU 與現(xiàn)代 GPU 之間的主要區(qū)別?!癙PU 針對(duì)并行處理進(jìn)行了優(yōu)化,而 GPU 針對(duì)圖形處理進(jìn)行了優(yōu)化?!边@家初創(chuàng)公司對(duì)比稱:“PPU 與 CPU 的集成度更高,你可以將其視為一種協(xié)處理器,而 GPU 是一個(gè)獨(dú)立計(jì)算單元,與 CPU 的連接更為松散?!彼€強(qiáng)調(diào)了 PPU 不需要單獨(dú)內(nèi)核及其可變并行寬度的重要性。
Flow表示,它將在今年下半年提供有關(guān)PPU的更多技術(shù)細(xì)節(jié)。至于Flow PPU的商業(yè)化進(jìn)展,它提到了與 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 強(qiáng)調(diào)了其對(duì) IP 許可模式的偏好,類似于Arm的授權(quán)模式,客戶需要付費(fèi)獲取其PPU IP,以便嵌入到其CPU設(shè)計(jì)當(dāng)中。
編輯:芯智訊-浪客劍