2012年,谷歌團(tuán)隊推出著名的八層卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,在人臉識別方面大幅提升了圖像識別準(zhǔn)確率,帶動了卷積的普及。
2017年,谷歌團(tuán)隊又推出基于自注意力機(jī)制的模型Transformer,在語義理解方面大幅提升了語音翻譯效果,帶動了GEMM的普及。
2018年,OpenAI團(tuán)隊推出一種預(yù)訓(xùn)練語言模型GPT(Generative Pre-trained Transformer),也就是最初代的GPT-1(12層),并通過了圖靈測試。
也許在GPT-1時代,大眾還沒有什么感受,但GPT-3、GPT-4架構(gòu)下的ChatGPT,以及OpenAI 后面發(fā)布的Sora視頻生成模型,讓人工智能成功出圈,并產(chǎn)生了全球性的“大模型和AIGC熱”。
對這幾年“人工智能和大模型”的翻火,烏鎮(zhèn)智庫理事長張曉東表示:“人工智能火過很多次,圖靈1950年寫的論文《計算機(jī)與人工智能》中就講了一個‘模仿游戲’,現(xiàn)在又叫‘圖靈測試’,其中就定義了智能——一個屋子關(guān)一個人,另一個屋子關(guān)一個機(jī)器,不停地問他們問題,當(dāng)問的時間足夠長,仍然不能判別出來哪個房間是人、哪個房間是機(jī)器的時候,這個機(jī)器就是智能的。”
那什么是生成式人工智能呢?張曉東認(rèn)為其就是“圖靈機(jī)求逆”,即“我給你一堆輸出,然后讓你猜什么樣的圖靈機(jī)能夠生成這個輸出,如果用數(shù)學(xué)的話說,大模型就是圖靈機(jī)?!?/p>
今天,隨著AI技術(shù)的快速發(fā)展與應(yīng)用,大模型的部署已從云端訓(xùn)練,逐漸向邊緣端推理和微調(diào)延伸,這一轉(zhuǎn)變預(yù)示著邊緣計算領(lǐng)域?qū)⒂瓉砬八从械臋C(jī)遇與挑戰(zhàn)。
大模型落地邊緣側(cè),芯片性能和功耗的平衡是關(guān)鍵
以語言為基礎(chǔ)的多模態(tài)大模型已經(jīng)達(dá)到深層智能水平,得到了爆發(fā)式的發(fā)展,在此基礎(chǔ)上,OpenAI上線了GPT Store,AI在商業(yè)上的應(yīng)用將促進(jìn)大模型更快地發(fā)展。
而為了更好地實現(xiàn)商業(yè)閉環(huán),必須尋找到更多的商業(yè)落腳點,因此將大型人工智能模型引入邊緣設(shè)備、嵌入式系統(tǒng)勢在必行。
正如張曉東所言,“大模型的部署需要海量的高算力芯片,預(yù)計2027-2028年,超級智能會到來,屆時最大的幾個模型將需要1000萬張卡,消耗的能量相當(dāng)于一個中國中小型的省的耗電量,由此帶來的巨額成本,會成為行業(yè)發(fā)展的最大挑戰(zhàn)。”
今天我們看到大模型已經(jīng)在AI手機(jī)、AI PC、機(jī)器人導(dǎo)航、AR數(shù)字沙盤和汽車中得到初步應(yīng)用。而邊緣側(cè)或者嵌入式終端設(shè)備有限資源下的算力部署,以及對功耗和成本的要求只會更加嚴(yán)苛。
對此,芯原執(zhí)行副總裁、IP事業(yè)部總經(jīng)理戴偉進(jìn)表示:“當(dāng)大模型落地邊緣側(cè)或者終端,邊緣計算主要側(cè)重于推理、實施決策和部分?jǐn)?shù)據(jù)訓(xùn)練,而終端則更側(cè)重于原始數(shù)據(jù)采集,為大模型提供標(biāo)記化的數(shù)據(jù)輸入。當(dāng)云端需要大量GPU卡來滿足海量算力時,邊緣側(cè)和終端更需要能在性能和功耗間能找到平衡的AI芯片和解決方案?!?/p>
而芯原作為國內(nèi)排名第一、國際排名第七的IP大廠,可以為客戶提供廣泛的IP產(chǎn)品組合,在AI行業(yè)中,芯原AI-Computing IP系列產(chǎn)品可覆蓋數(shù)據(jù)中心、邊緣服務(wù)器、嵌入式設(shè)備三個場景,包括VIP9X00 NPU IP、CC8X00 GPGPU IP、GC9X00AI NPU+GPU IP、CCTC-MP Tensor Core GPU IP。
從公司營收結(jié)構(gòu)來看,2023年財年,在芯原IP授權(quán)業(yè)務(wù)收入中 (包括知識產(chǎn)權(quán)授權(quán)使用費、特許權(quán)使用費) ,圖形處理器GPU IP、神經(jīng)網(wǎng)絡(luò)處理器NPU IP和視頻處理器VPU IP收入合計占比約為72%。
邊緣和端側(cè)AI,NPU或是最佳選擇
當(dāng)邊緣與云協(xié)同計算,低功耗催生了產(chǎn)業(yè)對輕量大模型的需求,包括語音模型、視覺模型、電力模型等。
“云里面只能生成樹干,而端側(cè)的微調(diào)卡和推理卡是樹枝,可以更好的保護(hù)隱私和安全。” 芯原股份創(chuàng)始人、董事長兼總裁戴偉民如是說。
事實上,目前專門為AI算法設(shè)計的硬件加速器有TPU、NPU、LPU、IPU等,那種硬件加速器可以更好地在邊緣端提升AI模型的推理和微調(diào)效率呢?
芯原NPU IP研發(fā)副總裁查凱南認(rèn)為:“面向邊緣人工智能對模型和硬件的需求,NPU更適合端側(cè)人工智能?!?/p>
從實際應(yīng)用中,我們看到端側(cè)推理最受歡迎的確實是NPU。
關(guān)聯(lián)到芯原NPU的銷售情況,根據(jù)戴偉進(jìn)的介紹:“芯原自2016年開始人工智能NPU的開發(fā),當(dāng)前芯原的NPU已經(jīng)在全球累計出貨超過1億顆,已被72家客戶用于其128款人工智能芯片中,廣泛應(yīng)用于AI視覺、AI語音、AI圖像、AIoT/智慧家居、AR/VR、自動駕駛、PC、智能手機(jī)、監(jiān)控、數(shù)據(jù)中心、可穿戴設(shè)備、智慧醫(yī)療和機(jī)器人等領(lǐng)域?!?/p>
那么,為何芯原的NPU會這么受歡迎呢?
根據(jù)查凱南的介紹,“如今Transformer大模型到處可見,而芯原對Transformer做了優(yōu)化,對推理和訓(xùn)練都做了很多工作。在端側(cè),芯原擁有VIP9X00和GC9XX00AI AI-GPU IP的同時,還有專門為端側(cè)定制的NPU IP,它能高效地處理各類神經(jīng)網(wǎng)絡(luò)和計算任務(wù),最小化數(shù)據(jù)傳輸?!?/p>
值得一提的是,最新一代的芯原VIP9000系列NPU IP具備可擴(kuò)展的高性能處理能力,不僅適用于Transformer和卷積神經(jīng)網(wǎng)絡(luò)(CNN),還融合了4位量化和壓縮技術(shù),以解決帶寬限制問題,方便在嵌入式設(shè)備上部署生成式人工智能(AIGC)和大型語言模型(LLM)算法,如Stable Diffusion和Llama 2。
機(jī)器人部署AI大模型,NPU助力端側(cè)芯片迎接挑戰(zhàn)
“現(xiàn)在的機(jī)器人到底是智能機(jī)器人還是智障機(jī)器人呢?實際上的確過去的AI卷積計算已經(jīng)解決了部分特殊場景上的功能,但普適性還不夠,未來大模型跟3D空間計算會給具身智能帶來很多加速。”,神頂科技(南京)有限公司董事長、CEO袁帝文如是說。
什么是具身智能?其實說開了是我們經(jīng)常能聽到的一些熱門應(yīng)用,包括工業(yè)機(jī)器人、人形機(jī)器人、AGV/AMR、MR/AR、自動駕駛、低空飛行、智能家居等。
那么當(dāng)大模型落地這些機(jī)器人應(yīng)用中時,會給終端芯片帶來哪些設(shè)計上的要求呢?
袁帝文重點提到了對高實時性NPU的要求,他認(rèn)為:“端側(cè)的NPU不僅需要多核多線程,在高能效比的技術(shù)上,來提升實時處理能力、多任務(wù)處理效率、人工智能能力,支持復(fù)雜感知與融合;還需要對Transformer實現(xiàn)高效支持,來解決內(nèi)存訪問成本和內(nèi)存使用成本等問題;最后還需要具有模型參數(shù)量化和壓縮的能力,比如通過權(quán)重壓縮,即通過多種技術(shù)方法(如量化、剪枝、稀疏,Tiling等)來減少模型的存儲和計算需求?!?/p>
據(jù)悉,當(dāng)前神頂科技正在采用“3D空間計算芯片 + 芯原NPU”來實現(xiàn)大模型在機(jī)器人上的人工智能部署。
寫在最后
借用戴偉民博士的觀點作為本文結(jié)尾,“ChatGPT出來之前只會下棋,但出來后就變成了通用人工智能,但是否會帶來‘超智能’的問題?就中國而言,雖然在算力方面有些限制,計算機(jī)語言也不是中文,資金方面也比不上美國,但我們必須追上去,而不能成為“弱智能”國家?!?/p>