對算力芯片來說,最根本的追求就是計算效率,因此優(yōu)良的能效比一直是提升計算能力的關(guān)鍵。并行計算、分布式計算,以及采用算法和硬件高度集成的專用芯片,都是業(yè)界這些年的主要實踐。
雖然多核CPU/眾核GPU的并行加速技術(shù)可以提升算力,但隨著摩爾定律逼近極限,存儲帶寬已經(jīng)在制約計算系統(tǒng)的有效帶寬,系統(tǒng)算力增長步履維艱。也就是在這一背景下,存算一體成為探尋極致計算效率道路上一個新方向,業(yè)界甚至稱它為“AI算力的下一極”,繼CPU、GPU之后的算力架構(gòu)“第三極”。
存算一體的架構(gòu)優(yōu)勢
在傳統(tǒng)的計算過程中,數(shù)據(jù)存在于計算單元與存儲單元之間,大量數(shù)據(jù)需要在CPU或GPU 中頻繁移動和高速傳遞。業(yè)界測算,整個過程中能耗大概在60%-90%之間。同時,由于外部DRAM的運行速度遠(yuǎn)遠(yuǎn)小于CPU或GPU的運算速度,馮·諾依曼架構(gòu)會受到傳輸帶寬瓶頸的限制,也就是業(yè)界通常所說的存儲墻瓶頸,系統(tǒng)的計算效率大打折扣。
早期的AI芯片,嘗試通過堆積大量芯片資源以及高并行性來提高性能,典型的代表就是特斯拉的FSD。它采用集中式的存儲和計算架構(gòu),確實可以實現(xiàn)較好的性能提升,但是,在遇到算力要求更大、計算要求靈活性更高的場景,計算單元使用效率會急劇下降。這是因為,如果單純依靠堆積資源,到一定程度后,由于物理實現(xiàn)的限制,計算資源數(shù)據(jù)的并行性已經(jīng)沒有辦法匹配計算資源本身的并行性了。
這樣的架構(gòu)設(shè)計類似于古典的中式庭院,它向內(nèi)合圍成一個小院子,集各種功能于一身,使得人與人、人和自然之間可以高效溝通,但因為院落的面積終究是有限的,所能容納的居住人數(shù)也就有限,而且設(shè)計和建造這樣的庭院難度和成本較大,可拓展性也比較差。
后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮指出,后摩智能所做的是更進(jìn)一步,把存儲和計算完全融合在一起,而不只是一個近存計算。這一設(shè)計類似中西合璧的思路:先打造一個優(yōu)美的庭院,在保證計算資源利用效率的基礎(chǔ)上,再使用現(xiàn)代高層建筑的方式來靈活地擴展算力,這樣就可以達(dá)到效率、靈活性和可擴展性的平衡。
以后摩智能最新發(fā)布的鴻途H30芯片為例,它采用的天樞架構(gòu),就是通過多核、多硬件線程的方式擴展算力,實現(xiàn)了計算效率與算力靈活擴展的均衡,AI計算可以在核內(nèi)完成端到端處理,保證通用性。在 Int8數(shù)據(jù)精度條件下,其AI核心IPU能效比15Tops/W,是傳統(tǒng)架構(gòu)芯片的7倍以上。
概括存算一體的特點,就是在存儲單位內(nèi)部完成部分或全部的計算。從架構(gòu)層面,它可以實現(xiàn)兩個天然優(yōu)勢:由于計算和存儲兩個部分更近,減少了不必要的數(shù)據(jù)搬移,因此延時低、效率高。
大算力存算一體芯片的市場前景
存算一體正面向大算力、通用性、高計算精度等方面持續(xù)演進(jìn)。面向智能駕駛、數(shù)據(jù)中心等大算力應(yīng)用場景,它們在可靠性、算力方面有較高要求,業(yè)界認(rèn)為,存算一體芯片有望另辟蹊徑搶占云計算市場。
中國電動汽車百人會副理事長兼秘書長張永偉則認(rèn)為,智能駕駛市場規(guī)模龐大,仍處于加速滲透的階段,為新技術(shù)和新企業(yè)提供了創(chuàng)新發(fā)展的巨大機遇。存算一體作為一種創(chuàng)新技術(shù),對工藝制程依賴度較低,是智能駕駛芯片具有前瞻性的一種選擇。
后摩智能認(rèn)為存算一體的發(fā)展邏輯是受應(yīng)用驅(qū)動的。正是因為AI、大數(shù)據(jù)分析這類數(shù)據(jù)密集型應(yīng)用的出現(xiàn)后,對能效比的需要開始迅速上升,推動了存算一體的發(fā)展。并且在產(chǎn)業(yè)層面,存算一體技術(shù)在0到1的階段已初步形成IP授權(quán)、定制開發(fā)、自定義產(chǎn)品多種商業(yè)模式,能夠在特定應(yīng)用場景中實現(xiàn)小規(guī)模量產(chǎn)。一旦產(chǎn)品出現(xiàn)可大規(guī)模量產(chǎn)的趨勢,或是能夠產(chǎn)生足夠的收益,整個產(chǎn)業(yè)鏈便會積極加入,推動整個產(chǎn)業(yè)的快速發(fā)展。
值得一提的是,以后摩智能鴻途H30打造的智能駕駛解決方案已經(jīng)在合作伙伴的無人小車上完成部署,這也是業(yè)界第一次基于存算一體架構(gòu)的芯片成功運行端到端的智能駕駛技術(shù)棧,開啟了存算一體大算力芯片的商用落地階段。
根據(jù)量子位智庫,到2030 年,基于存算一體技術(shù)的中小算力芯片市場規(guī)模約為1069億人 民幣,基于存算一體技術(shù)的大算力芯片市場規(guī)模約為67億人民幣,總市場規(guī)模約為1136 億人民幣。
從技術(shù)得到驗證到產(chǎn)品化過程的前期,存算一體配套工具(如EDA軟件)的研發(fā)尚處在探索階段。缺乏成熟的配套工具等原因,可能導(dǎo)致基于存算一體技術(shù)的產(chǎn)品在短期內(nèi)(5年左右)以小規(guī)模量產(chǎn)為主。
國產(chǎn)存算一體芯片企業(yè)已超十家
國內(nèi)企業(yè)對于存算一體芯片的投入逐漸進(jìn)入高峰期。
<與非網(wǎng)>匯總分析,國產(chǎn)存算一體芯片主要呈現(xiàn)以下趨勢:進(jìn)入2017年以來,國產(chǎn)存算一體芯片企業(yè)開始扎堆入場;第二,從技術(shù)路線來看,以近存計算和存內(nèi)計算兩種路線為主,其中,又可以細(xì)分為模擬存內(nèi)計算、全數(shù)字存內(nèi)計算、類腦存內(nèi)計算、類腦近存計算等;第三,存儲器類型相對多樣化,包括閃存、SRAM、RRAM、ReRAM等;第四,國產(chǎn)存算一體芯片正在向大算力的方向邁進(jìn),但數(shù)量較少,以2020年成立的億鑄科技和后摩智能為代表。
來源:<與非網(wǎng)>據(jù)公開信息匯總(2023/05/11)
寫在最后
大算力場景下,存算分離帶來的計算帶寬問題正在成為主要瓶頸。以智能駕駛等邊緣端高并發(fā)計算場景來看,它們除了對算力需求高之外,對芯片的功耗和散熱也有很高的要求。而常規(guī)架構(gòu)的芯片設(shè)計中,內(nèi)存系統(tǒng)的性能提升速度已經(jīng)大幅落后于處理器的性能提升速度,有限的內(nèi)存帶寬無法保證數(shù)據(jù)高速傳輸,無法滿足高級別的計算需求。在這一趨勢下,存算一體方案正獲得越來越多的關(guān)注,并逐步由研究走入商用場景中。
此外還有ChatGPT等生成式AI應(yīng)用的助推,在巨大的芯片成本和功耗面前,也在尋求更具能效比的大算力芯片,而這也將是存算一體大算力芯片演進(jìn)的一個主要方向。