編輯 | GTIC
WTM2101芯片量產(chǎn)不到半年,落地多款可穿戴設(shè)備。
芯東西9月14日報道,在剛剛落幕的GTIC 2022全球AI芯片峰會期間,知存科技創(chuàng)始人兼CEO王紹迪進(jìn)行了以《WTM存內(nèi)計算芯片應(yīng)用及發(fā)展》為題的演講。王紹迪說,與傳統(tǒng)馮·諾依曼架構(gòu)相比,存算一體具備明顯的能效、成本優(yōu)勢。但未來要滿足更多場景需求,存算一體在通用性、工具鏈、精度上的優(yōu)勢還有待補(bǔ)齊。
他預(yù)測未來3-5年內(nèi),存算一體可能實現(xiàn)每年超過8倍的算力提升。知存科技的存算一體芯片已進(jìn)入多個可穿戴設(shè)備產(chǎn)品,年銷量預(yù)計達(dá)百萬。此外,王紹迪首次公開知存科技未來五年的產(chǎn)品路線圖,預(yù)計明年發(fā)布覆蓋2D與3D視頻處理場景的更高算力WTM8系列,在2025年前發(fā)布邊緣計算產(chǎn)品WTM-C系列。
以下為王紹迪的演講實錄:
這應(yīng)該是我第三次參加AI芯片峰會。這一次非常高興的是存算一體AI芯片有了專門的論壇。我是知存科技的創(chuàng)始人兼CEO王紹迪,我們公司專注于存內(nèi)計算芯片的研發(fā)、生產(chǎn)和銷售。今天的介紹會有4個部分:第一部分關(guān)于知存科技以及存內(nèi)計算芯片的簡介;第二部分講一講存內(nèi)計算的優(yōu)勢;第三部分介紹存算一體WTM2101芯片以及它目前的應(yīng)用場景和優(yōu)勢;第四部分介紹知存科技的產(chǎn)品還有未來規(guī)劃。
01.技術(shù)原理基于歐姆定律,矩陣乘法效率倍增,發(fā)展?jié)摿薮?/h2>
知存科技2017年成立,到現(xiàn)在快接近5年時間。成立之前,我們首席科學(xué)家郭昕婕從2012年開始做存內(nèi)計算芯片的研發(fā),2016年已經(jīng)完成國際上首個Flash存算一體芯片的驗證,算是一個從0到1存算一體芯片的驗證,這也是第一個可以做多層深度學(xué)習(xí)網(wǎng)絡(luò)的存算一體芯片。有了這樣的成果,在2017年,我跟郭昕婕創(chuàng)立了知存科技,專注于存算一體芯片的研發(fā)。我們成功量產(chǎn)了一款名為WTM2101的存算一體芯片。WTM2101芯片目前已經(jīng)量產(chǎn)商用,用在多個產(chǎn)品中,后面我再作介紹。
存算一體和傳統(tǒng)計算的區(qū)別是使用存儲器單元做計算。主要用存算一體技術(shù)去解決矩陣乘法的計算,人工智能99%都是矩陣乘法,存算一體非常適合人工智能或者深度學(xué)習(xí)的計算,可以把存算一體應(yīng)用到人工智能芯片中。存算一體最基本的技術(shù)原理,如果做模擬的存算一體,是利用歐姆定律的乘法。我們知道歐姆定律是電壓×電導(dǎo)=電流,這是物理上的計算原理。如果我們能夠利用存儲器實現(xiàn)物理的計算原理,一個存儲陣列就可以實現(xiàn)百萬級甚至千萬級并行的計算,計算并行度要高出很多。常用的向量矩陣乘法在深度學(xué)習(xí)計算中,如果轉(zhuǎn)化到存算一體中,只需要1次存儲器的讀取操作,就可以完成百萬級參數(shù)的乘法和加法計算。如果用傳統(tǒng)的GPU架構(gòu),百萬級的乘法加法計算,光是存儲器的讀取次數(shù)就要超過5萬次。這是1次存儲器的操作和5萬次存儲器操作的區(qū)別。
在存儲器操作有巨大區(qū)別的情況下,存算一體計算的能效、速度、算力、成本就有很大的優(yōu)勢?;谶@樣的優(yōu)勢,知存科技專注開發(fā)存算一體芯片。存算一體芯片目前已經(jīng)實現(xiàn)商用,而且未來還有很多的迭代優(yōu)化空間,包括存算一體計算的速度加快、計算的精度提高、面積持續(xù)減少、規(guī)模持續(xù)加大。我認(rèn)為未來幾年都是存算一體飛速發(fā)展的黃金時代,這就像以前90年代摩爾定律一樣,每年都有幾倍的算力提升。我認(rèn)為存算一體在未來3-5年內(nèi)可能提升速度更快,每年可能都超過8倍的算力提升。
02.減少數(shù)據(jù)搬運代價,成本、能效優(yōu)勢明顯
存算一體的優(yōu)勢目前主要是在成本、算力、功耗上,它在通用性、工具鏈和精度上的不足還需補(bǔ)齊。為什么存算一體它從成本、算力、功耗上會有這樣的優(yōu)勢?我們可以看CPU、GPU和存算一體的計算架構(gòu),CPU的計算架構(gòu)相當(dāng)于計算單元有很多,有多級的緩存。GPU也是類似,但它計算的單元數(shù)量會更多,計算的并行度會更多。
存算一體跟前面的架構(gòu)相當(dāng)不同,存算一體相當(dāng)于沒有統(tǒng)一的緩存存儲,可以理解成計算和存儲是一體化且是分布式。如果從架構(gòu)方面來看比較復(fù)雜,我們可以拿核酸檢測舉例,可以想象CPU是1個人給1棟樓的居民一點點地做核酸檢測,GPU相當(dāng)于1000個人給1000個居民樓做核酸檢測,但馮·諾依曼架構(gòu)就是檢測人必須呆在一個大的園區(qū)中,1000個人都在一個廣場上,1000個樓的居民去做檢測。未來計算的數(shù)據(jù)量會越來越大,現(xiàn)在可能是GB、TB級,未來可能是PB級,計算并行度也從現(xiàn)在的百萬級,到千萬級、億級。相當(dāng)于我們現(xiàn)在要做核酸檢測,可能從原先一個小區(qū)的人變成我們需要把一個城市的人,1萬倍核酸檢測的工作人員聚集一起,整個城市的人過去做核酸檢測,這樣可想而知大家都會堵在路上。這就變成數(shù)據(jù)搬運的代價是非常大的,因為人從家里到核酸檢測的園區(qū),可能需要走一天的時間去做核酸檢測再回來,這就跟現(xiàn)在馮·諾依曼的計算瓶頸是一樣的,數(shù)據(jù)搬運占用了可能95%以上的功耗,占用了80%以上的時間。
隨著算力越來越大,它的問題會越來越嚴(yán)重,存算一體是一種可以緩解這種問題的技術(shù),我們不再需要有統(tǒng)一的人一點點做核酸檢測,它的效率就有很大的提升。所以這里面,我們也在分析端側(cè)、邊側(cè)和云側(cè)存算一體到底應(yīng)用優(yōu)勢在什么。
左邊總結(jié)了一個對端側(cè)、邊側(cè)、云側(cè)的計算需求的優(yōu)勢。端側(cè)最重要的是成本;邊側(cè)相當(dāng)來說能效比較重要,因為端側(cè)很多場景下受散熱限制或者體積限制,但它對成本、精度、工具鏈、算力都有一定的要求;云側(cè)相對來說能效也一樣重要,但成本相對不是那么重要,它對算力、通信、工具鏈、精度都有不同方面的需求。
存算一體在算力、成本、能效都有一定的優(yōu)勢,但在不同的應(yīng)用場景下它的優(yōu)勢也是有所側(cè)重,隨著算力在增大的情況下能效會逐漸提高。這點可以很容易理解,不僅存算一體,像現(xiàn)在的NPU還有AI芯片,都是算力越大的時候,能效在往前提升。但傳統(tǒng)的NPU還有AI芯片,它有一定的瓶頸,達(dá)到一定算力的程度下,再往上的能效就很難提升了,這主要受到存儲墻的限制。但存算一體的能效隨著算力在增大,它能夠提升的空間是更大的。
另外是成本,算力更大,存算一體成本下降也是快的,因為算力越大的時候,存算一體的計算單元它的存儲器所占的面積、所占的成本以及可拓展性的優(yōu)勢就發(fā)揮出來了。算力很小的情況下,存儲器只占芯片中非常小的一部分,算力很大的時候甚至可以用專用的工藝去把存儲器的密度提高,把存儲器的工藝做的成本更低,它的集成度也做得更高。我們認(rèn)為像存算一體,預(yù)計它的每Tops的成本可以做到普通AI芯片或者GPU的大概1/20,這是它一個很大的優(yōu)勢。另外存儲器使用工藝的成本也比大算力下先進(jìn)工藝要低很多,所以存算一體的大算力成本也有很大的優(yōu)勢。
03.量產(chǎn)不到半年,落地多款可穿戴設(shè)備
我們公司去年發(fā)布、今年量產(chǎn)了一個WTM2101芯片。這個芯片的特點,常規(guī)使用下功耗是在5uA-3mA的量級,AI算力可以達(dá)到50Gops,可以存1.8兆個算法參數(shù),用存儲單元做深度學(xué)習(xí)計算,一般可以運行1-3個算法,因為一般算法大小在端側(cè)下大概幾百K級別,有的可能到1M的級別。
WTM2101和現(xiàn)有市場上做得很好的芯片方案相比,圍繞典型應(yīng)用場景在算力、功耗上都有很大的優(yōu)勢,兩個乘起來大概有個幾十倍的優(yōu)勢。所以它在能效上或者在算力上、功耗上都有不同幅度的提升。
這是WTM2101芯片的架構(gòu)。它不是一個專用芯片,而是通用、可開發(fā)的,這里面有1.8M的存算一體,我們也叫它NPU,做人工智能計算。此外有個CPU,還有加速器,加速器是標(biāo)準(zhǔn)的ASIC,做一些存內(nèi)計算做不了的非AI計算,它的可開發(fā)性也是比較強(qiáng)的。
另外有個320KB RAM可以實現(xiàn)非AI的算法,配合148MHz的CPU,在常規(guī)非AI的算法都可以跑得游刃有余。我們的接口做了很多低功耗的接口設(shè)計,可以連多個傳感器去實現(xiàn)傳感器的取出和實時處理,同時也支持音頻信號的直接輸入和直接處理。這個芯片主要用在可穿戴場景中,因為可穿戴對功耗一般在幾毫安的限制,像WTM2101一般功耗是在1mA以內(nèi),所以在這個場景下它增加的功耗很小,但提升算力很大,一般會把現(xiàn)有產(chǎn)品的人工智能算力提高幾百倍以上,包括像耳機(jī)、手表,功能像語言識別、語音增強(qiáng)、健康監(jiān)測、環(huán)境識別、遠(yuǎn)場喚醒、運動識別、視覺識別、事件檢測,這是芯片的常用場景。
我簡單介紹一些目前在客戶應(yīng)用中用起來比較好的功能。第一個是AI降噪算法。用芯片可以跑比較大的模型,跑1Gops的算力,這個算力主要做的算法采集外界的聲音,包括人聲和噪聲,基于深度學(xué)習(xí)的計算,可以把人聲和噪聲分離開,生成一個干凈的人聲。這純靠算法層面去做噪聲人聲分離,所以對人聲的保留比原有的傳統(tǒng)算法做得更好,并且計算實時性可以做得很好,延遲可以做到8ms以內(nèi)。在對低延時要求非常強(qiáng)的場景下,這個芯片的功耗、延時、算力,目前沒有其他芯片可以取代。
另外在做命令詞的識別,我們可以去運行AI的算法,可以支持多個語言,并且換詞不用重新訓(xùn)練算法,也可以做免換寫,最多支持300個詞的連續(xù)識別。在300個詞的連續(xù)識別下,芯片的功耗也是低于1mA,包含麥克風(fēng)的數(shù)據(jù)處理以及后面識別的功耗。尤其多國語言,要切換語言應(yīng)用到不同國家的場景下,這個芯片可以很容易做到,而且支持語言是不需要換算法的。
另外在健康領(lǐng)域,它可以做到很低功耗的處理,包括跟PPG、ECG常規(guī)的傳感器,可以自動地去實時處理,做健康數(shù)據(jù)的監(jiān)測,包括血壓、血糖、血氧,做運動的識別、做抬腕手勢的識別。對比之前最低功耗的芯片,它的功耗優(yōu)勢基本在6-10倍左右的降低,所以對穿戴類產(chǎn)品,尤其健康場景下常用產(chǎn)品的待機(jī)增加幅度是非常大的。這個芯片也已經(jīng)有客戶用起來做視覺的監(jiān)測,包括基本的人體檢測、物體分類、存在檢測等,芯片也可以接輕量級視覺的攝像頭,做人體檢測還有手勢識別的功能?,F(xiàn)在已經(jīng)使用了WTM2101芯片的產(chǎn)品,包括耳機(jī)、模組還有手表,今年預(yù)計應(yīng)該有8個產(chǎn)品差不多可以基于這個芯片實現(xiàn)量產(chǎn)。
04.預(yù)告未來五年芯片規(guī)劃將擁抱Chiplet生態(tài)
除了WTM2101芯片,我們未來也有對存內(nèi)計算全面的規(guī)劃,也希望跟大家共同把存內(nèi)計算的生態(tài)推向一個新的階段。這是我們的芯片產(chǎn)品規(guī)劃,2021年是第一代芯片WTM1001,2022年是第二代芯片WTM2101。第一代、第二代芯片的算力提升有接近10倍。
我們在明年會推出8系列芯片,相對第二代的新品算力,預(yù)計有800-1000倍的算力提升,算力可以達(dá)到幾十Tops左右,這個算力已經(jīng)進(jìn)行過流片的驗證。
我們預(yù)計在2025年會推出下一系列C系列的芯片,預(yù)計會達(dá)到100Tops級別,在2026年會規(guī)劃更高算力的芯片,當(dāng)然它的架構(gòu)還有它的使用材料可能跟現(xiàn)有的8系列、2系列、1系列都會有很大的不同。這是未來關(guān)于知存存內(nèi)計算產(chǎn)品發(fā)展的規(guī)劃。除了存內(nèi)計算的算力,我們更關(guān)注在存內(nèi)計算的工具鏈、生態(tài)的建設(shè)。知存的團(tuán)隊正在打造一個最適合存內(nèi)計算的工具鏈,更好地開發(fā)存內(nèi)計算產(chǎn)品。這里面我們總結(jié)出來有幾個非常重要的部分,做好這3點,才能把存算一體真正用好。
第一,針對存內(nèi)計算芯片進(jìn)行算法自動化設(shè)計?,F(xiàn)有的深度學(xué)習(xí)算法很多基于現(xiàn)在CPU,DSP和NPU做了很多優(yōu)化,這種優(yōu)化并不適合存內(nèi)計算芯片,沒有把存內(nèi)計算的優(yōu)勢充分發(fā)揮出來,因為存內(nèi)計算適合大規(guī)模并行數(shù)據(jù)的計算,盡量減少數(shù)據(jù)的流動。針對存內(nèi)計算它的架構(gòu),芯片的優(yōu)勢怎么自動化設(shè)計算法,這是一個很重要的任務(wù)要去完成,我們做了一些這方面的事情。另外我們認(rèn)為一個很重要的事情,就是存內(nèi)計算,因為里面是包含模擬的計算,它的計算精度定義跟數(shù)字計算不一樣。就算模擬計算的精度可以達(dá)到非常高,比如一個存儲單元可以存10比特,用10比特可以理解成1024個值,用1024個值表示數(shù)據(jù)電路的1比特、2比特結(jié)果也是不一樣的。因為數(shù)字信號的1比特、2比特它是絕對的1、絕對的0或絕對的1、2、3、4。即使模擬的精度更高,但它不是絕對的量化值。比如表示1,模擬信號可能是1.001,也可能是0.999,這里面是有差別。模擬的計算精度可以更高,應(yīng)該更好地被利用起來,這需要新的深度學(xué)習(xí)訓(xùn)練方法。這個方法或者工具鏈開發(fā)好之后,存內(nèi)計算的發(fā)展速度,它的應(yīng)用速度、開發(fā)速度都會大幅度的提高,可能在客戶的開發(fā)時間會從原先的1~2個月節(jié)省到1~2周。
第二個是架構(gòu)和工具鏈。我們現(xiàn)在的芯片是2.0架構(gòu),后面會做出Memcore3.0的架構(gòu),我們預(yù)計新的架構(gòu)會使用超過5年的時間,它相對來說更通用、可拓展性更強(qiáng),更穩(wěn)定、高效。我們8系列、未來的C系列產(chǎn)品,在五年內(nèi)都會去使用這個新的架構(gòu)。此外還有映射的工具,怎么自動化開發(fā)算法、自動化訓(xùn)練算法,還有自動化把算法移植到芯片上。最重要的是,這個工具會兼容歷史的芯片,意味著我們在老產(chǎn)品當(dāng)中開發(fā)的算法可以直接在新的產(chǎn)品中直接應(yīng)用,這可以大幅度節(jié)省客戶開發(fā)產(chǎn)品的時間。
第三,在新的技術(shù)方面我們也投入了很多,包括在工藝方面,我們持續(xù)在研究,未來會有一個更好的存儲器件,它更穩(wěn)定,可以做更多比特的存內(nèi)計算,在計算能效上也比現(xiàn)有的高出4-8倍。這里面在工藝上做了很多調(diào)整的創(chuàng)新,因為傳統(tǒng)的存儲器并沒有針對存內(nèi)計算做任何的優(yōu)化,所以這里面可優(yōu)化的空間非常多。
此外,更高密度的集成,也是未來幾年要探索的事情,嘗試把存內(nèi)計算的存儲器往更高的三維維度做集成。最后值得一提的是Chiplet,存內(nèi)計算也要擁抱Chiplet的生態(tài)。我們現(xiàn)在已經(jīng)在做的事情,包括針對2.5D、3D如何實現(xiàn)跟CPU、跟存儲器、跟GPU,在不同工藝來混合兼容,這樣可以更好地發(fā)揮存內(nèi)計算的性能。我認(rèn)為Chiplet生態(tài),包括先進(jìn)封裝的生態(tài)可以把存算一體帶到一個新的高度,因為它讓存儲器的工藝和邏輯工藝以及其他工藝更好,更容易兼容在一起,并且大幅度降低了開發(fā)的成本。這是我今天的報告。謝謝大家。
以上是王紹迪演講內(nèi)容的完整整理。