嵌入式系統(tǒng)中的TinyML可以通過多種方式實現(xiàn),通常是利用增強型MCU、DSP、AI加速器和NPU。目前的難題是,如何在TinyML的預算范圍內(nèi),以最佳方式開發(fā)具有機器學習(ML)功能的嵌入式系統(tǒng)。?
幾乎每項新技術都會讓業(yè)界浮想聯(lián)翩,隨之而來的是大量新工具、新軟件和新硬件的發(fā)布,這一切都助長了市場快速增長和批量銷售的夢想。
然后是現(xiàn)實。
TinyML就走到了這一步。
自TinyML于2019年首次發(fā)布以來,嵌入式行業(yè)一直在努力將TinyML帶回家。然而,空談誤國,TinyML現(xiàn)實可行嗎?
首先,嵌入式系統(tǒng)工程師并不一定是AI專家。在許多情況下,TinyML被證明是嵌入式系統(tǒng)設計師的第一個AI項目。
評估TinyML的真正市場潛力也不那么簡單。
TinyML是ML的一個類別,其模型體積小,運行功耗低。然而,TinyML受制于AI軟件和硬件的不斷發(fā)展,這可能會模糊TinyML在市場中的定義。
在此背景下,Ceva前不久推出了“new TinyML optimized NPUs”,即Ceva-NeuPro-Nano NPU。Ceva確信,它擁有所有正確的技術要素,可以幫助系統(tǒng)設計者打入TinyML市場。
NeuPro-Nano是Ceva首次涉足TinyML市場。Ceva副總裁兼傳感器和音頻BU總裁Chad Lucien說,Nano的重點是“AI的設備和嵌入式實現(xiàn)”。
與Nano無關,Ceva此前發(fā)布了面向邊緣AI市場的NeuPro-M,專注于生成式AI和大規(guī)模NPU實現(xiàn)等應用。M和Nano都屬于Ceva的NeuPro NPU系列。
Lucien承認,業(yè)界尚未接受一個大家都遵守的統(tǒng)一的TinyML定義,因為許多玩家都在以不同的方式使用這個術語。Ceva堅持使用自己的術語,表示TinyML“功耗通常為1W或更低,支持每秒千萬次運算(GOPS)”。
Ceva的NeuPro NPU系列提供了從數(shù)十GOPS到數(shù)千TOPS的IP組合。
AI軟件棧??
Ceva還推出了Ceva NeuPro Studio,這是一個專為NeuPro系列設計的AI軟件棧。Lucien表示,該軟件棧“圍繞行業(yè)開放標準構(gòu)建”,包括TFLM(TensorFlow Lite)和μTVM(microTensor Virtual Machine)。
客戶的意見讓Ceva認識到,“當今AI市場的痛點之一是缺乏跨產(chǎn)品組合的通用軟件接口。”
Ceva的NeuPro Studio包括標準庫,如經(jīng)過訓練和優(yōu)化的TinyML模型的Model Zoo,涵蓋語音、視覺和傳感用例。
TinyML:爆炸式增長?
ABI Research是密切跟蹤TinyML市場的公司之一。據(jù)ABI的行業(yè)分析師Paul Schell稱,其最新的TinyML報告尚未發(fā)布,但“即將發(fā)布”。
Schell承認,ABI“尚未見證TinyML的爆炸式增長”。但隨著其“采用率穩(wěn)步上升”,他仍然保持樂觀?!半S著硬件和軟件能力的不斷提高,使用案例的數(shù)量也在不斷擴大”。
Schell之所以對TinyML持樂觀態(tài)度,有幾個因素,其中包括更好的硬件的出現(xiàn)。同樣重要的是,關鍵軟件工具的易用性也得到了改善。
Schell還看好NPU,如Ceva的NeuPro-Nano IP。他說:“像NPU這樣能夠加速AI工作負載的創(chuàng)新,將使要求更高的神經(jīng)網(wǎng)絡能夠在嵌入式設備上運行,特別是在機器視覺方面。從簡單的音頻和視覺檢測到分類,如果沒有NPU,以前需要更高的功耗?!?/p>
他補充說:“針對AI模型的軟件壓縮技術(如量化)的創(chuàng)新也擴大了可在嵌入式設備上運行的更高要求應用的數(shù)量?!?/p>
ABI還在MLOps和其他軟件工具及平臺的可訪問性方面取得了進展。MLOps(Machine learning operations)是一套自動化和簡化ML工作流程和部署的實踐。Schell解釋說,這些關鍵工具使“在云端訓練的模型能夠更快地部署到TinyML硬件上”?!斑@加快了實現(xiàn)價值的時間,使項目能夠突破PoC階段”。Schell強調(diào)說:“對任何TinyML芯片供應商來說,提供此類工具都已成為賭注?!?/p>
為什么要為TinyML提供NPU???
考慮到AI(包括TinyML)是一個不斷變化的目標,芯片設計人員始終面臨著艱難的選擇。
ABI的Schell指出:“對于TinyML,‘機器視覺’和‘音頻信號’用例是一個新出現(xiàn)的分歧(也可能是混亂)領域”,這為爭論“迄今為止MCU可以實現(xiàn)的功能與需要NPU或其他加速器的高要求工作負載(如圖像分類)”提供了素材。
在這種情況下,許多芯片公司通過各種芯片解決方案在嵌入式系統(tǒng)中使用TinyML。
例如,Ceva的Lucien說,許多芯片公司“都推出了自制的加速器,通常都帶有硬連接的NPU”。但是,當這些供應商發(fā)現(xiàn)他們的芯片(專為特定的AI任務而設計)并不能涵蓋一切時,他們就不得不設計一種新的加速器,或者立即采取一些不同的措施?!昂芏嗫蛻舾嬖V我們,他們需要一個新的加速器,因為他們現(xiàn)有的加速器已經(jīng)達到了使用壽命?!?/p>
另一方面,Lucien補充說,一些MCU和DSP“正在通過一些特殊的擴展來處理神經(jīng)網(wǎng)絡。然后,他們在旁邊添加一個單獨的NPU加速器,以產(chǎn)生性能良好的解決方案”。
這一方案似乎可以解決TinyML的性能問題。但實際上,剩下的將是一場編程噩夢,因為“現(xiàn)在你有了兩個內(nèi)核”,Lucien指出,“你必須處理在兩個不同內(nèi)核上實施軟件的復雜性”。雙核解決方案也讓系統(tǒng)設計師頭疼不已,包括“面積和成本影響,以及在雙核之間來回移動數(shù)據(jù)的內(nèi)存管理”。
對于Ceva來說,所有這些復雜問題都明確了它必須為TinyML市場的客戶提供什么。Lucien強調(diào)說:“我們專注于一個完全可編程、自給自足的單核,它不是加速器。它不需要”單獨的CPU或DSP來運行”。
他說:“有了Nano NPU,我們可以在同一個內(nèi)核中高效地執(zhí)行所有特征提取和神經(jīng)網(wǎng)絡(NN)計算。它充當控制器,運行DSP和音頻代碼?!?/p>
Lucien解釋說,其完全可編程NPU的架構(gòu)具有可擴展性,可以增加先進的ML處理能力。
Ceva稱其“面向未來”,并吹噓Nano可以支持最先進的ML數(shù)據(jù)類型和運算符,包括4位到32位整數(shù)支持和原生變換器計算。Nano還為所有用例提供終極ML性能,包括稀疏性加速、非線性激活類型加速和快速量化。
有了Ceva的Nano IP,TinyML可以廣泛集成。Lucien說,它可以作為微控制器的NPU內(nèi)核嵌入到微控制器中。Nano IP還可以與用于耳機、智能揚聲器或音響的藍牙SoC上的連接功能相鄰。此外,Nano IP還可用于傳感器本身或安裝在傳感器旁邊。
競爭格局????????????????
盡管Ceva沒有具體說明它是如何將自己的Nano IP與TinyML市場上的其他廠商進行比較的,但Ceva的明顯競爭對手是Arm的Ethos。Arm率先發(fā)布了microNPU,這是一種新型ML處理器,旨在加速嵌入式和IoT設備的推理。
Ceva的Lucien沒有透露具體細節(jié),但他指出,NeuPro Nano為TinyML市場帶來了一些其他公司沒有的關鍵特性。
其中之一就是Ceva開發(fā)的AI壓縮技術。Lucien指出,這項技術被稱為“Ceva-NetSqueeze”,它采用壓縮模型權(quán)重并將其送入NPU,無需額外的解壓縮步驟。相比之下,如果采用雙核解決方案,Lucien解釋說可能需要將權(quán)重解壓縮到內(nèi)存中,然后重新壓縮并輸入NPU。
最終,NetSqueeze使Ceva的NeuPro-Nano NPU能夠?qū)?nèi)存占用減少80%,而內(nèi)存占用是AIoT處理器的一個很頭疼的問題。
NeuPro Nano的另一個優(yōu)勢是能耗。Lucien說,使用稀疏的非零權(quán)重進行計算可以節(jié)省能耗。但Ceva更進一步,“根據(jù)用例動態(tài)調(diào)整頻率中的電壓”。他補充說:“因此,當每個模型在執(zhí)行網(wǎng)絡時對頻率和電壓有不同要求時,你可以調(diào)整頻率中的電壓,使其與運行該網(wǎng)絡所需的電壓相匹配。然后,當你運行下一個網(wǎng)絡時,它就會適當?shù)財U展內(nèi)核?!?/p>
除了TinyML硬件和軟件的基本問題外,還要考慮IoT設備的生命周期。ABI的Schell稱這個問題是阻礙TinyML發(fā)展的“障礙之一”。對于生命周期為五年或更長的現(xiàn)有IoT項目來說,尤其是在工業(yè)市場,讓TinyML成為一個良好的、自然的解決方案可能比想象的要難。