国产精品无码无在线观看,国产福利区一区二在线观看

編輯 | GTIC

WTM2101芯片量產(chǎn)不到半年，落地多款可穿戴設(shè)備。

芯東西9月14日報道，在剛剛落幕的GTIC 2022全球AI芯片峰會期間，知存科技創(chuàng)始人兼CEO王紹迪進(jìn)行了以《WTM存內(nèi)計算芯片應(yīng)用及發(fā)展》為題的演講。王紹迪說，與傳統(tǒng)馮·諾依曼架構(gòu)相比，存算一體具備明顯的能效、成本優(yōu)勢。但未來要滿足更多場景需求，存算一體在通用性、工具鏈、精度上的優(yōu)勢還有待補(bǔ)齊。

他預(yù)測未來3-5年內(nèi)，存算一體可能實現(xiàn)每年超過8倍的算力提升。知存科技的存算一體芯片已進(jìn)入多個可穿戴設(shè)備產(chǎn)品，年銷量預(yù)計達(dá)百萬。此外，王紹迪首次公開知存科技未來五年的產(chǎn)品路線圖，預(yù)計明年發(fā)布覆蓋2D與3D視頻處理場景的更高算力WTM8系列，在2025年前發(fā)布邊緣計算產(chǎn)品WTM-C系列。

以下為王紹迪的演講實錄：

這應(yīng)該是我第三次參加AI芯片峰會。這一次非常高興的是存算一體AI芯片有了專門的論壇。我是知存科技的創(chuàng)始人兼CEO王紹迪，我們公司專注于存內(nèi)計算芯片的研發(fā)、生產(chǎn)和銷售。今天的介紹會有4個部分：第一部分關(guān)于知存科技以及存內(nèi)計算芯片的簡介；第二部分講一講存內(nèi)計算的優(yōu)勢；第三部分介紹存算一體WTM2101芯片以及它目前的應(yīng)用場景和優(yōu)勢；第四部分介紹知存科技的產(chǎn)品還有未來規(guī)劃。

01.技術(shù)原理基于歐姆定律，矩陣乘法效率倍增，發(fā)展?jié)摿薮?/h2>
知存科技2017年成立，到現(xiàn)在快接近5年時間。成立之前，我們首席科學(xué)家郭昕婕從2012年開始做存內(nèi)計算芯片的研發(fā)，2016年已經(jīng)完成國際上首個Flash存算一體芯片的驗證，算是一個從0到1存算一體芯片的驗證，這也是第一個可以做多層深度學(xué)習(xí)網(wǎng)絡(luò)的存算一體芯片。有了這樣的成果，在2017年，我跟郭昕婕創(chuàng)立了知存科技，專注于存算一體芯片的研發(fā)。我們成功量產(chǎn)了一款名為WTM2101的存算一體芯片。WTM2101芯片目前已經(jīng)量產(chǎn)商用，用在多個產(chǎn)品中，后面我再作介紹。

存算一體和傳統(tǒng)計算的區(qū)別是使用存儲器單元做計算。主要用存算一體技術(shù)去解決矩陣乘法的計算，人工智能99%都是矩陣乘法，存算一體非常適合人工智能或者深度學(xué)習(xí)的計算，可以把存算一體應(yīng)用到人工智能芯片中。存算一體最基本的技術(shù)原理，如果做模擬的存算一體，是利用歐姆定律的乘法。我們知道歐姆定律是電壓×電導(dǎo)=電流，這是物理上的計算原理。如果我們能夠利用存儲器實現(xiàn)物理的計算原理，一個存儲陣列就可以實現(xiàn)百萬級甚至千萬級并行的計算，計算并行度要高出很多。常用的向量矩陣乘法在深度學(xué)習(xí)計算中，如果轉(zhuǎn)化到存算一體中，只需要1次存儲器的讀取操作，就可以完成百萬級參數(shù)的乘法和加法計算。如果用傳統(tǒng)的GPU架構(gòu)，百萬級的乘法加法計算，光是存儲器的讀取次數(shù)就要超過5萬次。這是1次存儲器的操作和5萬次存儲器操作的區(qū)別。

在存儲器操作有巨大區(qū)別的情況下，存算一體計算的能效、速度、算力、成本就有很大的優(yōu)勢?；谶@樣的優(yōu)勢，知存科技專注開發(fā)存算一體芯片。存算一體芯片目前已經(jīng)實現(xiàn)商用，而且未來還有很多的迭代優(yōu)化空間，包括存算一體計算的速度加快、計算的精度提高、面積持續(xù)減少、規(guī)模持續(xù)加大。我認(rèn)為未來幾年都是存算一體飛速發(fā)展的黃金時代，這就像以前90年代摩爾定律一樣，每年都有幾倍的算力提升。我認(rèn)為存算一體在未來3-5年內(nèi)可能提升速度更快，每年可能都超過8倍的算力提升。

02.減少數(shù)據(jù)搬運代價，成本、能效優(yōu)勢明顯

存算一體的優(yōu)勢目前主要是在成本、算力、功耗上，它在通用性、工具鏈和精度上的不足還需補(bǔ)齊。為什么存算一體它從成本、算力、功耗上會有這樣的優(yōu)勢？我們可以看CPU、GPU和存算一體的計算架構(gòu)，CPU的計算架構(gòu)相當(dāng)于計算單元有很多，有多級的緩存。GPU也是類似，但它計算的單元數(shù)量會更多，計算的并行度會更多。

存算一體跟前面的架構(gòu)相當(dāng)不同，存算一體相當(dāng)于沒有統(tǒng)一的緩存存儲，可以理解成計算和存儲是一體化且是分布式。如果從架構(gòu)方面來看比較復(fù)雜，我們可以拿核酸檢測舉例，可以想象CPU是1個人給1棟樓的居民一點點地做核酸檢測，GPU相當(dāng)于1000個人給1000個居民樓做核酸檢測，但馮·諾依曼架構(gòu)就是檢測人必須呆在一個大的園區(qū)中，1000個人都在一個廣場上，1000個樓的居民去做檢測。未來計算的數(shù)據(jù)量會越來越大，現(xiàn)在可能是GB、TB級，未來可能是PB級，計算并行度也從現(xiàn)在的百萬級，到千萬級、億級。相當(dāng)于我們現(xiàn)在要做核酸檢測，可能從原先一個小區(qū)的人變成我們需要把一個城市的人，1萬倍核酸檢測的工作人員聚集一起，整個城市的人過去做核酸檢測，這樣可想而知大家都會堵在路上。這就變成數(shù)據(jù)搬運的代價是非常大的，因為人從家里到核酸檢測的園區(qū)，可能需要走一天的時間去做核酸檢測再回來，這就跟現(xiàn)在馮·諾依曼的計算瓶頸是一樣的，數(shù)據(jù)搬運占用了可能95%以上的功耗，占用了80%以上的時間。

隨著算力越來越大，它的問題會越來越嚴(yán)重，存算一體是一種可以緩解這種問題的技術(shù)，我們不再需要有統(tǒng)一的人一點點做核酸檢測，它的效率就有很大的提升。所以這里面，我們也在分析端側(cè)、邊側(cè)和云側(cè)存算一體到底應(yīng)用優(yōu)勢在什么。

左邊總結(jié)了一個對端側(cè)、邊側(cè)、云側(cè)的計算需求的優(yōu)勢。端側(cè)最重要的是成本；邊側(cè)相當(dāng)來說能效比較重要，因為端側(cè)很多場景下受散熱限制或者體積限制，但它對成本、精度、工具鏈、算力都有一定的要求；云側(cè)相對來說能效也一樣重要，但成本相對不是那么重要，它對算力、通信、工具鏈、精度都有不同方面的需求。

存算一體在算力、成本、能效都有一定的優(yōu)勢，但在不同的應(yīng)用場景下它的優(yōu)勢也是有所側(cè)重，隨著算力在增大的情況下能效會逐漸提高。這點可以很容易理解，不僅存算一體，像現(xiàn)在的NPU還有AI芯片，都是算力越大的時候，能效在往前提升。但傳統(tǒng)的NPU還有AI芯片，它有一定的瓶頸，達(dá)到一定算力的程度下，再往上的能效就很難提升了，這主要受到存儲墻的限制。但存算一體的能效隨著算力在增大，它能夠提升的空間是更大的。

另外是成本，算力更大，存算一體成本下降也是快的，因為算力越大的時候，存算一體的計算單元它的存儲器所占的面積、所占的成本以及可拓展性的優(yōu)勢就發(fā)揮出來了。算力很小的情況下，存儲器只占芯片中非常小的一部分，算力很大的時候甚至可以用專用的工藝去把存儲器的密度提高，把存儲器的工藝做的成本更低，它的集成度也做得更高。我們認(rèn)為像存算一體，預(yù)計它的每Tops的成本可以做到普通AI芯片或者GPU的大概1/20，這是它一個很大的優(yōu)勢。另外存儲器使用工藝的成本也比大算力下先進(jìn)工藝要低很多，所以存算一體的大算力成本也有很大的優(yōu)勢。

03.量產(chǎn)不到半年，落地多款可穿戴設(shè)備

我們公司去年發(fā)布、今年量產(chǎn)了一個WTM2101芯片。這個芯片的特點，常規(guī)使用下功耗是在5uA-3mA的量級，AI算力可以達(dá)到50Gops，可以存1.8兆個算法參數(shù)，用存儲單元做深度學(xué)習(xí)計算，一般可以運行1-3個算法，因為一般算法大小在端側(cè)下大概幾百K級別，有的可能到1M的級別。

WTM2101和現(xiàn)有市場上做得很好的芯片方案相比，圍繞典型應(yīng)用場景在算力、功耗上都有很大的優(yōu)勢，兩個乘起來大概有個幾十倍的優(yōu)勢。所以它在能效上或者在算力上、功耗上都有不同幅度的提升。

這是WTM2101芯片的架構(gòu)。它不是一個專用芯片，而是通用、可開發(fā)的，這里面有1.8M的存算一體，我們也叫它NPU，做人工智能計算。此外有個CPU，還有加速器，加速器是標(biāo)準(zhǔn)的ASIC，做一些存內(nèi)計算做不了的非AI計算，它的可開發(fā)性也是比較強(qiáng)的。

另外有個320KB RAM可以實現(xiàn)非AI的算法，配合148MHz的CPU，在常規(guī)非AI的算法都可以跑得游刃有余。我們的接口做了很多低功耗的接口設(shè)計，可以連多個傳感器去實現(xiàn)傳感器的取出和實時處理，同時也支持音頻信號的直接輸入和直接處理。這個芯片主要用在可穿戴場景中，因為可穿戴對功耗一般在幾毫安的限制，像WTM2101一般功耗是在1mA以內(nèi)，所以在這個場景下它增加的功耗很小，但提升算力很大，一般會把現(xiàn)有產(chǎn)品的人工智能算力提高幾百倍以上，包括像耳機(jī)、手表，功能像語言識別、語音增強(qiáng)、健康監(jiān)測、環(huán)境識別、遠(yuǎn)場喚醒、運動識別、視覺識別、事件檢測，這是芯片的常用場景。

我簡單介紹一些目前在客戶應(yīng)用中用起來比較好的功能。第一個是AI降噪算法。用芯片可以跑比較大的模型，跑1Gops的算力，這個算力主要做的算法采集外界的聲音，包括人聲和噪聲，基于深度學(xué)習(xí)的計算，可以把人聲和噪聲分離開，生成一個干凈的人聲。這純靠算法層面去做噪聲人聲分離，所以對人聲的保留比原有的傳統(tǒng)算法做得更好，并且計算實時性可以做得很好，延遲可以做到8ms以內(nèi)。在對低延時要求非常強(qiáng)的場景下，這個芯片的功耗、延時、算力，目前沒有其他芯片可以取代。

另外在做命令詞的識別，我們可以去運行AI的算法，可以支持多個語言，并且換詞不用重新訓(xùn)練算法，也可以做免換寫，最多支持300個詞的連續(xù)識別。在300個詞的連續(xù)識別下，芯片的功耗也是低于1mA，包含麥克風(fēng)的數(shù)據(jù)處理以及后面識別的功耗。尤其多國語言，要切換語言應(yīng)用到不同國家的場景下，這個芯片可以很容易做到，而且支持語言是不需要換算法的。

另外在健康領(lǐng)域，它可以做到很低功耗的處理，包括跟PPG、ECG常規(guī)的傳感器，可以自動地去實時處理，做健康數(shù)據(jù)的監(jiān)測，包括血壓、血糖、血氧，做運動的識別、做抬腕手勢的識別。對比之前最低功耗的芯片，它的功耗優(yōu)勢基本在6-10倍左右的降低，所以對穿戴類產(chǎn)品，尤其健康場景下常用產(chǎn)品的待機(jī)增加幅度是非常大的。這個芯片也已經(jīng)有客戶用起來做視覺的監(jiān)測，包括基本的人體檢測、物體分類、存在檢測等，芯片也可以接輕量級視覺的攝像頭，做人體檢測還有手勢識別的功能?，F(xiàn)在已經(jīng)使用了WTM2101芯片的產(chǎn)品，包括耳機(jī)、模組還有手表，今年預(yù)計應(yīng)該有8個產(chǎn)品差不多可以基于這個芯片實現(xiàn)量產(chǎn)。

04.預(yù)告未來五年芯片規(guī)劃將擁抱Chiplet生態(tài)

除了WTM2101芯片，我們未來也有對存內(nèi)計算全面的規(guī)劃，也希望跟大家共同把存內(nèi)計算的生態(tài)推向一個新的階段。這是我們的芯片產(chǎn)品規(guī)劃，2021年是第一代芯片WTM1001，2022年是第二代芯片WTM2101。第一代、第二代芯片的算力提升有接近10倍。

我們在明年會推出8系列芯片，相對第二代的新品算力，預(yù)計有800-1000倍的算力提升，算力可以達(dá)到幾十Tops左右，這個算力已經(jīng)進(jìn)行過流片的驗證。

我們預(yù)計在2025年會推出下一系列C系列的芯片，預(yù)計會達(dá)到100Tops級別，在2026年會規(guī)劃更高算力的芯片，當(dāng)然它的架構(gòu)還有它的使用材料可能跟現(xiàn)有的8系列、2系列、1系列都會有很大的不同。這是未來關(guān)于知存存內(nèi)計算產(chǎn)品發(fā)展的規(guī)劃。除了存內(nèi)計算的算力，我們更關(guān)注在存內(nèi)計算的工具鏈、生態(tài)的建設(shè)。知存的團(tuán)隊正在打造一個最適合存內(nèi)計算的工具鏈，更好地開發(fā)存內(nèi)計算產(chǎn)品。這里面我們總結(jié)出來有幾個非常重要的部分，做好這3點，才能把存算一體真正用好。

第一，針對存內(nèi)計算芯片進(jìn)行算法自動化設(shè)計?，F(xiàn)有的深度學(xué)習(xí)算法很多基于現(xiàn)在CPU，DSP和NPU做了很多優(yōu)化，這種優(yōu)化并不適合存內(nèi)計算芯片，沒有把存內(nèi)計算的優(yōu)勢充分發(fā)揮出來，因為存內(nèi)計算適合大規(guī)模并行數(shù)據(jù)的計算，盡量減少數(shù)據(jù)的流動。針對存內(nèi)計算它的架構(gòu)，芯片的優(yōu)勢怎么自動化設(shè)計算法，這是一個很重要的任務(wù)要去完成，我們做了一些這方面的事情。另外我們認(rèn)為一個很重要的事情，就是存內(nèi)計算，因為里面是包含模擬的計算，它的計算精度定義跟數(shù)字計算不一樣。就算模擬計算的精度可以達(dá)到非常高，比如一個存儲單元可以存10比特，用10比特可以理解成1024個值，用1024個值表示數(shù)據(jù)電路的1比特、2比特結(jié)果也是不一樣的。因為數(shù)字信號的1比特、2比特它是絕對的1、絕對的0或絕對的1、2、3、4。即使模擬的精度更高，但它不是絕對的量化值。比如表示1，模擬信號可能是1.001，也可能是0.999，這里面是有差別。模擬的計算精度可以更高，應(yīng)該更好地被利用起來，這需要新的深度學(xué)習(xí)訓(xùn)練方法。這個方法或者工具鏈開發(fā)好之后，存內(nèi)計算的發(fā)展速度，它的應(yīng)用速度、開發(fā)速度都會大幅度的提高，可能在客戶的開發(fā)時間會從原先的1~2個月節(jié)省到1~2周。

第二個是架構(gòu)和工具鏈。我們現(xiàn)在的芯片是2.0架構(gòu)，后面會做出Memcore3.0的架構(gòu)，我們預(yù)計新的架構(gòu)會使用超過5年的時間，它相對來說更通用、可拓展性更強(qiáng)，更穩(wěn)定、高效。我們8系列、未來的C系列產(chǎn)品，在五年內(nèi)都會去使用這個新的架構(gòu)。此外還有映射的工具，怎么自動化開發(fā)算法、自動化訓(xùn)練算法，還有自動化把算法移植到芯片上。最重要的是，這個工具會兼容歷史的芯片，意味著我們在老產(chǎn)品當(dāng)中開發(fā)的算法可以直接在新的產(chǎn)品中直接應(yīng)用，這可以大幅度節(jié)省客戶開發(fā)產(chǎn)品的時間。

第三，在新的技術(shù)方面我們也投入了很多，包括在工藝方面，我們持續(xù)在研究，未來會有一個更好的存儲器件，它更穩(wěn)定，可以做更多比特的存內(nèi)計算，在計算能效上也比現(xiàn)有的高出4-8倍。這里面在工藝上做了很多調(diào)整的創(chuàng)新，因為傳統(tǒng)的存儲器并沒有針對存內(nèi)計算做任何的優(yōu)化，所以這里面可優(yōu)化的空間非常多。

此外，更高密度的集成，也是未來幾年要探索的事情，嘗試把存內(nèi)計算的存儲器往更高的三維維度做集成。最后值得一提的是Chiplet，存內(nèi)計算也要擁抱Chiplet的生態(tài)。我們現(xiàn)在已經(jīng)在做的事情，包括針對2.5D、3D如何實現(xiàn)跟CPU、跟存儲器、跟GPU，在不同工藝來混合兼容，這樣可以更好地發(fā)揮存內(nèi)計算的性能。我認(rèn)為Chiplet生態(tài)，包括先進(jìn)封裝的生態(tài)可以把存算一體帶到一個新的高度，因為它讓存儲器的工藝和邏輯工藝以及其他工藝更好，更容易兼容在一起，并且大幅度降低了開發(fā)的成本。這是我今天的報告。謝謝大家。

以上是王紹迪演講內(nèi)容的完整整理。