富二代就是这么嗨v1.1.0,av免费网站在线观看,h网站在线

“AI大潮洶涌澎湃，大模型要真正落地，一定是云、邊、端的三級(jí)結(jié)合。與此同時(shí)，人工智能正在走向萬(wàn)物智能，受到實(shí)時(shí)響應(yīng)需求的影響，車(chē)載大模型或成為落地最快的板塊之一?！?愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘在2024 WAIC上如是說(shuō)。

圖 | 愛(ài)芯元智參展2024 WAIC ，來(lái)源：愛(ài)芯元智

大模型落地端側(cè)，GPGPU不是最好的方案

根據(jù)市場(chǎng)調(diào)研數(shù)據(jù)顯示，2023年我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模為5784億元，增速達(dá)到13.9%。

隨著AI模型的發(fā)展趨于成熟，AI基礎(chǔ)設(shè)施建設(shè)變得越來(lái)越重要?；诖?，仇肖莘得出結(jié)論，在大模型時(shí)代，更經(jīng)濟(jì)、更高效、更環(huán)保將成為AI基礎(chǔ)設(shè)施的關(guān)鍵詞。

圖 | 愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘，來(lái)源：愛(ài)芯元智

下潛到芯片層面，如何讓大模型在AI芯片中跑得更快，如何讓大模型實(shí)現(xiàn)更好的調(diào)優(yōu)，是目前人工智能要解決的落地難題，更經(jīng)濟(jì)的AI專用芯片將成為必然。

而正是有這樣的趨勢(shì)推動(dòng)，我們觀察到，美國(guó)、以色列等國(guó)家已經(jīng)好多年沒(méi)有出現(xiàn)新的AI創(chuàng)業(yè)公司，但今年卻出現(xiàn)了很多家，這是因?yàn)楫?dāng)大模型落地邊側(cè)，原來(lái)的架構(gòu)可能已經(jīng)不再適用?！熬唧w來(lái)講，當(dāng)基礎(chǔ)網(wǎng)絡(luò)架構(gòu)還不穩(wěn)定時(shí)，GPGPU存在靈活性優(yōu)勢(shì)，但過(guò)去10年中，卷積網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)已經(jīng)趨于穩(wěn)定，包括算子的固定，大多已經(jīng)進(jìn)入微調(diào)和調(diào)優(yōu)階段，所以在端側(cè)GPGPU不是最好的方案，DSA架構(gòu)（Domain Specific Architecture，特定領(lǐng)域架構(gòu)）下的AI芯片更具能效優(yōu)勢(shì)”，仇肖莘表示。

據(jù)悉，NPU通常采用DSA架構(gòu)，DSA架構(gòu)下的NPU通過(guò)模仿生物神經(jīng)網(wǎng)絡(luò)構(gòu)建，可以在電路層實(shí)現(xiàn)存儲(chǔ)和計(jì)算一體化，提高運(yùn)行效率。

對(duì)此，愛(ài)芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉表示：“我們不能把NPU當(dāng)做加速起來(lái)使用，否則就不能適應(yīng)網(wǎng)絡(luò)架構(gòu)的變化，也不是擴(kuò)展指令集，否則就不能把能量消耗最大比例的放在Tensor計(jì)算上，NPU應(yīng)該是一個(gè)AI原生處理器。”

圖 | 愛(ài)芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉，來(lái)源：愛(ài)芯元智

劉建偉以愛(ài)芯通元AI處理器為例，進(jìn)一步補(bǔ)充道：“愛(ài)芯通元AI處理器的核心是算子指令集和數(shù)據(jù)流微架構(gòu)。其底層采用了可編程數(shù)據(jù)流的微架構(gòu)，來(lái)提高能效和算力密度。同時(shí)它的靈活性也保證了算子指令集的完備性，支撐各種AI的應(yīng)用。而其成熟的軟件工具鏈可以讓開(kāi)發(fā)者快速上手。此外，軟硬件的聯(lián)合設(shè)計(jì)也保證了愛(ài)芯通元AI處理器的高速迭代和競(jìng)爭(zhēng)力。愛(ài)芯通元AI處理器很大程度降低了AI應(yīng)用的開(kāi)發(fā)及運(yùn)維成本，讓AI智能更經(jīng)濟(jì)、更高效、更環(huán)保?！?/p>

誰(shuí)是端側(cè)大模型的最佳載體？

當(dāng)大模型落地邊緣側(cè)和端側(cè)，行業(yè)內(nèi)猜測(cè)AI手機(jī)、AI PC、汽車(chē)等應(yīng)用場(chǎng)景或成為首批試點(diǎn)。對(duì)于AI手機(jī)、AI PC來(lái)說(shuō)，因?yàn)榕c當(dāng)前AI大模型的應(yīng)用場(chǎng)景覆蓋度較高，且潛在市場(chǎng)體量較大，被寄希望于成為“大模型的最佳載體”。而對(duì)于汽車(chē)來(lái)說(shuō)，雖然當(dāng)前銷量可能面臨瓶頸，但智能化的滲透率還在繼續(xù)。

以手機(jī)行業(yè)為例，今年全球各大手機(jī)廠家紛紛推出了跑在終端的“大模型”版本，比如Google的Gemini-nano（1.8B）、vivo的藍(lán)星大模型（1B）、以及國(guó)內(nèi)“小鋼炮”MiniCPM（1B）等。此外，蘋(píng)果公司在2024年全球開(kāi)發(fā)者大會(huì)上對(duì)外披露了自研模型OpenELM，其參數(shù)量約為3B，在iPhone 15 Pro上的處理速度可以達(dá)到每秒生成30個(gè)token，初始響應(yīng)延遲約0.6毫秒。

根據(jù)蘋(píng)果的測(cè)試結(jié)果，這個(gè)3B級(jí)別的端側(cè)小模型在性能上足以比肩主流的7B級(jí)別模型的能力，而云端模型的效果甚至可以與GPT-4 Turbo級(jí)別相媲美。

對(duì)此，愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘表示：“蘋(píng)果在手機(jī)上跑3B的模型，如果能落地應(yīng)用，那么3-7B基本能滿足當(dāng)下手機(jī)市場(chǎng)的需求?！?/p>

“此外，手機(jī)算力不夠，當(dāng)前需要外掛協(xié)處理器，但成本會(huì)上升，未來(lái)手機(jī)的SoC中一定會(huì)集成NPU，但我們應(yīng)思考的是，集成多大的NPU，才能平衡算力要求和成本問(wèn)題。當(dāng)前國(guó)內(nèi)已經(jīng)有很多廠商和愛(ài)芯元智在接觸并討論關(guān)于NPU IP集成的合作?！?仇肖莘補(bǔ)充道。

值得一提的是，由于這些模型的參數(shù)規(guī)模與當(dāng)前以GPT4為代表的云端大模型參數(shù)規(guī)模相差多個(gè)數(shù)量級(jí)，因此也被稱為“小模型”。

用劉建偉的話來(lái)說(shuō)，端側(cè)跑小模型基本夠了，邊緣側(cè)跑多模態(tài)的大模型。

計(jì)算單元已經(jīng)不再是AI芯片的最大瓶頸

在邊緣計(jì)算和端側(cè)設(shè)備的應(yīng)用場(chǎng)景中，與云端計(jì)算的集中處理模式不同，它們更強(qiáng)調(diào)感知與計(jì)算的緊密結(jié)合。因此，對(duì)于邊、端兩側(cè)，計(jì)算單元已經(jīng)不再是AI芯片的最大瓶頸，當(dāng)前最大的挑戰(zhàn)是在DDR和I/O側(cè)，所以如何節(jié)省帶寬、節(jié)省存儲(chǔ)成為新的挑戰(zhàn)，為此對(duì)混合精度的需求增加，比如我們看到英偉達(dá)也從原來(lái)的FP8、FP16轉(zhuǎn)變到開(kāi)始支持INT4。

事實(shí)上，在人工智能網(wǎng)絡(luò)的實(shí)際應(yīng)用中，經(jīng)常存在信息冗余現(xiàn)象，這表明在深度學(xué)習(xí)模型的許多部分，并不總是需要高精度的浮點(diǎn)數(shù)，如32比特或16比特的計(jì)算。通過(guò)采用低精度的數(shù)據(jù)表示，例如8比特整數(shù)（INT8）或4比特整數(shù)（INT4），可以顯著減少模型的計(jì)算負(fù)擔(dān)和內(nèi)存需求，同時(shí)仍然保持可接受的準(zhǔn)確性水平。

圖 | 神經(jīng)網(wǎng)絡(luò)示意圖（簡(jiǎn)化版），來(lái)源：愛(ài)芯元智

據(jù)悉，在愛(ài)芯元智的AI-ISP應(yīng)用中，就是基于混合精度的，網(wǎng)絡(luò)中許多中間層都是采用INT4精度。相比原來(lái)的8比特網(wǎng)絡(luò)，數(shù)據(jù)搬運(yùn)量可能就變成原來(lái)的1/4。由此便可以提升NPU的使用率和效率，在單位面積內(nèi)提供數(shù)倍于傳統(tǒng)NPU的等效算力，同時(shí)還能把成本和功耗降下來(lái)，更有利于端側(cè)和邊緣側(cè)AI地落地。

當(dāng)然，在AI落地的過(guò)程中，除了要解決內(nèi)存墻和功耗墻問(wèn)題以外，還需要考慮算法和硬件的結(jié)合問(wèn)題。尤其是在端側(cè)和邊緣側(cè)，芯片天生就和場(chǎng)景有一種弱耦合的關(guān)系，所以愛(ài)芯元智在設(shè)計(jì)AI視覺(jué)芯片時(shí)，采用了從應(yīng)用到算法再到NPU的聯(lián)合優(yōu)化設(shè)計(jì)。

我們看到，今年4月，愛(ài)芯元智AX650N已經(jīng)第一時(shí)間完成Llama 3、Phi-3、Llama 2、TinyLlama、Phi-2、Qwen1.5、ChatGLM3等國(guó)內(nèi)外主流的開(kāi)源大語(yǔ)言模型適配，而完成這些適配的前提，正式AX650N原生支持transformer，并完成了現(xiàn)有NPU工具鏈針對(duì)大語(yǔ)言模型的支持和調(diào)優(yōu)。

此外，近期我們看到愛(ài)芯通元V4（AX630C）已經(jīng)跑通了通義千問(wèn)（Qwen2.0），這個(gè)僅百元左右的模組，就能跑通義千問(wèn)0.5B的模型，并解決生活中端側(cè)的一些問(wèn)題，這意味著大模型在人機(jī)交互方面落地已經(jīng)成為可能。

寫(xiě)在最后

仇肖莘在2024 WAIC上表達(dá)了一個(gè)愿景：“讓黑光全彩相機(jī)，布滿田間地頭，讓每一分駕駛需求，都享受AI的服務(wù)，高效AI處理器，令邊緣智能觸手可及?！?/p>

圖 | 愛(ài)芯元智生態(tài)展示，來(lái)源：愛(ài)芯元智

然而，摩爾定律放緩，每個(gè)晶體管的價(jià)格已經(jīng)不再下降，所以在硬件上一定要做減法，來(lái)降低硬件成本和軟件開(kāi)發(fā)的難度，這有這樣才能實(shí)現(xiàn)AI普惠。而愛(ài)芯元智的策略是通過(guò)平臺(tái)技術(shù)來(lái)均攤成本，最終實(shí)現(xiàn)降本增效，惠利更多客戶。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F407VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下載ECAD模型	$20.39	查看
CP2102N-A02-GQFN28R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-28	ECAD模型下載ECAD模型	$2.5	查看
STM8S003F3P6	1	STMicroelectronics	Mainstream Value line 8-bit MCU with 8 Kbytes Flash, 16 MHz CPU, integrated EEPROM	ECAD模型下載ECAD模型	$1.53	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32F407VGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC