“AI大潮洶涌澎湃,大模型要真正落地,一定是云、邊、端的三級(jí)結(jié)合。與此同時(shí),人工智能正在走向萬(wàn)物智能,受到實(shí)時(shí)響應(yīng)需求的影響,車(chē)載大模型或成為落地最快的板塊之一?!?愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘在2024 WAIC上如是說(shuō)。
圖 | 愛(ài)芯元智參展2024 WAIC ,來(lái)源:愛(ài)芯元智
大模型落地端側(cè),GPGPU不是最好的方案
根據(jù)市場(chǎng)調(diào)研數(shù)據(jù)顯示,2023年我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模為5784億元,增速達(dá)到13.9%。
隨著AI模型的發(fā)展趨于成熟,AI基礎(chǔ)設(shè)施建設(shè)變得越來(lái)越重要?;诖?,仇肖莘得出結(jié)論,在大模型時(shí)代,更經(jīng)濟(jì)、更高效、更環(huán)保將成為AI基礎(chǔ)設(shè)施的關(guān)鍵詞。
圖 | 愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘,來(lái)源:愛(ài)芯元智
下潛到芯片層面,如何讓大模型在AI芯片中跑得更快,如何讓大模型實(shí)現(xiàn)更好的調(diào)優(yōu),是目前人工智能要解決的落地難題,更經(jīng)濟(jì)的AI專用芯片將成為必然。
而正是有這樣的趨勢(shì)推動(dòng),我們觀察到,美國(guó)、以色列等國(guó)家已經(jīng)好多年沒(méi)有出現(xiàn)新的AI創(chuàng)業(yè)公司,但今年卻出現(xiàn)了很多家,這是因?yàn)楫?dāng)大模型落地邊側(cè),原來(lái)的架構(gòu)可能已經(jīng)不再適用?!熬唧w來(lái)講,當(dāng)基礎(chǔ)網(wǎng)絡(luò)架構(gòu)還不穩(wěn)定時(shí),GPGPU存在靈活性優(yōu)勢(shì),但過(guò)去10年中,卷積網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)已經(jīng)趨于穩(wěn)定,包括算子的固定,大多已經(jīng)進(jìn)入微調(diào)和調(diào)優(yōu)階段,所以在端側(cè)GPGPU不是最好的方案,DSA架構(gòu)(Domain Specific Architecture,特定領(lǐng)域架構(gòu))下的AI芯片更具能效優(yōu)勢(shì)”,仇肖莘表示。
據(jù)悉,NPU通常采用DSA架構(gòu),DSA架構(gòu)下的NPU通過(guò)模仿生物神經(jīng)網(wǎng)絡(luò)構(gòu)建,可以在電路層實(shí)現(xiàn)存儲(chǔ)和計(jì)算一體化,提高運(yùn)行效率。
對(duì)此,愛(ài)芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉表示:“我們不能把NPU當(dāng)做加速起來(lái)使用,否則就不能適應(yīng)網(wǎng)絡(luò)架構(gòu)的變化,也不是擴(kuò)展指令集,否則就不能把能量消耗最大比例的放在Tensor計(jì)算上,NPU應(yīng)該是一個(gè)AI原生處理器。”
圖 | 愛(ài)芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉,來(lái)源:愛(ài)芯元智
劉建偉以愛(ài)芯通元AI處理器為例,進(jìn)一步補(bǔ)充道:“愛(ài)芯通元AI處理器的核心是算子指令集和數(shù)據(jù)流微架構(gòu)。其底層采用了可編程數(shù)據(jù)流的微架構(gòu),來(lái)提高能效和算力密度。同時(shí)它的靈活性也保證了算子指令集的完備性,支撐各種AI的應(yīng)用。而其成熟的軟件工具鏈可以讓開(kāi)發(fā)者快速上手。此外,軟硬件的聯(lián)合設(shè)計(jì)也保證了愛(ài)芯通元AI處理器的高速迭代和競(jìng)爭(zhēng)力。愛(ài)芯通元AI處理器很大程度降低了AI應(yīng)用的開(kāi)發(fā)及運(yùn)維成本,讓AI智能更經(jīng)濟(jì)、更高效、更環(huán)保?!?/p>
誰(shuí)是端側(cè)大模型的最佳載體?
當(dāng)大模型落地邊緣側(cè)和端側(cè),行業(yè)內(nèi)猜測(cè)AI手機(jī)、AI PC、汽車(chē)等應(yīng)用場(chǎng)景或成為首批試點(diǎn)。對(duì)于AI手機(jī)、AI PC來(lái)說(shuō),因?yàn)榕c當(dāng)前AI大模型的應(yīng)用場(chǎng)景覆蓋度較高,且潛在市場(chǎng)體量較大,被寄希望于成為“大模型的最佳載體”。而對(duì)于汽車(chē)來(lái)說(shuō),雖然當(dāng)前銷量可能面臨瓶頸,但智能化的滲透率還在繼續(xù)。
以手機(jī)行業(yè)為例,今年全球各大手機(jī)廠家紛紛推出了跑在終端的“大模型”版本,比如Google的Gemini-nano(1.8B)、vivo的藍(lán)星大模型(1B)、以及國(guó)內(nèi)“小鋼炮”MiniCPM(1B)等。此外,蘋(píng)果公司在2024年全球開(kāi)發(fā)者大會(huì)上對(duì)外披露了自研模型OpenELM,其參數(shù)量約為3B,在iPhone 15 Pro上的處理速度可以達(dá)到每秒生成30個(gè)token,初始響應(yīng)延遲約0.6毫秒。
根據(jù)蘋(píng)果的測(cè)試結(jié)果,這個(gè)3B級(jí)別的端側(cè)小模型在性能上足以比肩主流的7B級(jí)別模型的能力,而云端模型的效果甚至可以與GPT-4 Turbo級(jí)別相媲美。
對(duì)此,愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘表示:“蘋(píng)果在手機(jī)上跑3B的模型,如果能落地應(yīng)用,那么3-7B基本能滿足當(dāng)下手機(jī)市場(chǎng)的需求?!?/p>
“此外,手機(jī)算力不夠,當(dāng)前需要外掛協(xié)處理器,但成本會(huì)上升,未來(lái)手機(jī)的SoC中一定會(huì)集成NPU,但我們應(yīng)思考的是,集成多大的NPU,才能平衡算力要求和成本問(wèn)題。當(dāng)前國(guó)內(nèi)已經(jīng)有很多廠商和愛(ài)芯元智在接觸并討論關(guān)于NPU IP集成的合作?!?仇肖莘補(bǔ)充道。
值得一提的是,由于這些模型的參數(shù)規(guī)模與當(dāng)前以GPT4為代表的云端大模型參數(shù)規(guī)模相差多個(gè)數(shù)量級(jí),因此也被稱為“小模型”。
用劉建偉的話來(lái)說(shuō),端側(cè)跑小模型基本夠了,邊緣側(cè)跑多模態(tài)的大模型。
計(jì)算單元已經(jīng)不再是AI芯片的最大瓶頸
在邊緣計(jì)算和端側(cè)設(shè)備的應(yīng)用場(chǎng)景中,與云端計(jì)算的集中處理模式不同,它們更強(qiáng)調(diào)感知與計(jì)算的緊密結(jié)合。因此,對(duì)于邊、端兩側(cè),計(jì)算單元已經(jīng)不再是AI芯片的最大瓶頸,當(dāng)前最大的挑戰(zhàn)是在DDR和I/O側(cè),所以如何節(jié)省帶寬、節(jié)省存儲(chǔ)成為新的挑戰(zhàn),為此對(duì)混合精度的需求增加,比如我們看到英偉達(dá)也從原來(lái)的FP8、FP16轉(zhuǎn)變到開(kāi)始支持INT4。
事實(shí)上,在人工智能網(wǎng)絡(luò)的實(shí)際應(yīng)用中,經(jīng)常存在信息冗余現(xiàn)象,這表明在深度學(xué)習(xí)模型的許多部分,并不總是需要高精度的浮點(diǎn)數(shù),如32比特或16比特的計(jì)算。通過(guò)采用低精度的數(shù)據(jù)表示,例如8比特整數(shù)(INT8)或4比特整數(shù)(INT4),可以顯著減少模型的計(jì)算負(fù)擔(dān)和內(nèi)存需求,同時(shí)仍然保持可接受的準(zhǔn)確性水平。
圖 | 神經(jīng)網(wǎng)絡(luò)示意圖(簡(jiǎn)化版),來(lái)源:愛(ài)芯元智
據(jù)悉,在愛(ài)芯元智的AI-ISP應(yīng)用中,就是基于混合精度的,網(wǎng)絡(luò)中許多中間層都是采用INT4精度。相比原來(lái)的8比特網(wǎng)絡(luò),數(shù)據(jù)搬運(yùn)量可能就變成原來(lái)的1/4。由此便可以提升NPU的使用率和效率,在單位面積內(nèi)提供數(shù)倍于傳統(tǒng)NPU的等效算力,同時(shí)還能把成本和功耗降下來(lái),更有利于端側(cè)和邊緣側(cè)AI地落地。
當(dāng)然,在AI落地的過(guò)程中,除了要解決內(nèi)存墻和功耗墻問(wèn)題以外,還需要考慮算法和硬件的結(jié)合問(wèn)題。尤其是在端側(cè)和邊緣側(cè),芯片天生就和場(chǎng)景有一種弱耦合的關(guān)系,所以愛(ài)芯元智在設(shè)計(jì)AI視覺(jué)芯片時(shí),采用了從應(yīng)用到算法再到NPU的聯(lián)合優(yōu)化設(shè)計(jì)。
我們看到,今年4月,愛(ài)芯元智AX650N已經(jīng)第一時(shí)間完成Llama 3、Phi-3、Llama 2、TinyLlama、Phi-2、Qwen1.5、ChatGLM3等國(guó)內(nèi)外主流的開(kāi)源大語(yǔ)言模型適配,而完成這些適配的前提,正式AX650N原生支持transformer,并完成了現(xiàn)有NPU工具鏈針對(duì)大語(yǔ)言模型的支持和調(diào)優(yōu)。
此外,近期我們看到愛(ài)芯通元V4(AX630C)已經(jīng)跑通了通義千問(wèn)(Qwen2.0),這個(gè)僅百元左右的模組,就能跑通義千問(wèn)0.5B的模型,并解決生活中端側(cè)的一些問(wèn)題,這意味著大模型在人機(jī)交互方面落地已經(jīng)成為可能。
寫(xiě)在最后
仇肖莘在2024 WAIC上表達(dá)了一個(gè)愿景:“讓黑光全彩相機(jī),布滿田間地頭,讓每一分駕駛需求,都享受AI的服務(wù),高效AI處理器,令邊緣智能觸手可及?!?/p>
圖 | 愛(ài)芯元智生態(tài)展示,來(lái)源:愛(ài)芯元智
然而,摩爾定律放緩,每個(gè)晶體管的價(jià)格已經(jīng)不再下降,所以在硬件上一定要做減法,來(lái)降低硬件成本和軟件開(kāi)發(fā)的難度,這有這樣才能實(shí)現(xiàn)AI普惠。而愛(ài)芯元智的策略是通過(guò)平臺(tái)技術(shù)來(lái)均攤成本,最終實(shí)現(xiàn)降本增效,惠利更多客戶。