加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01.大模型向邊端側(cè)下沉多種應(yīng)用方向探索已涌現(xiàn)
    • 02.借創(chuàng)新架構(gòu)之力破局邊端大模型落地的算力難題
    • 03.國內(nèi)AI芯片創(chuàng)企邊端大模型系列產(chǎn)品落地最高算力100TOPS
    • 04.結(jié)語:邊端大模型亟待起飛AI芯片創(chuàng)企迎新機(jī)遇
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

國產(chǎn)AI芯片崛起!大模型下沉邊端,GPU之外的芯片新潮流

08/24 09:25
1294
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者 |??程茜,編輯?|??漠影

存算一體架構(gòu)已經(jīng)為邊端大模型部署提供了一種高效解決方案。

大模型這把火,已經(jīng)燒到了邊端設(shè)備!一段時(shí)間以來,能更好適配手機(jī)、PC等邊緣設(shè)備的端側(cè)模型如雨后春筍般接連冒出,微軟、蘋果、Hugging Face、OpenAI、Mistral、谷歌等連珠炮式甩下輕量級(jí)模型;AI PC、AI手機(jī)、汽車座艙等大模型加持的邊端設(shè)備層出不窮,產(chǎn)業(yè)鏈上下游玩家爭相入場。

隨著技術(shù)的成熟和應(yīng)用場景的拓展,端側(cè)大模型市場已經(jīng)成為AI領(lǐng)域的一個(gè)重要增長點(diǎn),但對(duì)于邊端設(shè)備而言,承載大模型能力非一日之功,即便參數(shù)規(guī)模下降為大模型落地部署提供了條件,邊端設(shè)備本身的硬件載體同樣至關(guān)重要。

因此,連接大模型與邊端設(shè)備能力的底層芯片玩家成為其中的關(guān)鍵變量。那么,在邊端大模型部署落地加速的背景下,還是非GPU不可嗎?什么樣的芯片架構(gòu)將成為邊端玩家首選?

01.大模型向邊端側(cè)下沉多種應(yīng)用方向探索已涌現(xiàn)

大模型加速落地應(yīng)用已經(jīng)成為共識(shí),云端大模型向邊端下沉的產(chǎn)業(yè)趨勢(shì)日漸明顯,邊端大模型爆發(fā)前夜已至。一方面,邊端大模型的參數(shù)規(guī)模、性能表現(xiàn)與企業(yè)的需求正相互契合。

首先,動(dòng)輒千億、萬億參數(shù)規(guī)模的大模型背后是無底洞似的燒錢游戲,與尚沒有探索出高利潤商業(yè)模式的現(xiàn)狀相比,鮮少有企業(yè)能持續(xù)投入。因此,“大模型反卷小型化”成為一大趨勢(shì),性能優(yōu)越、更易部署、更具性價(jià)比的小模型成為玩家們爭奪市場的關(guān)鍵。部署在邊端設(shè)備上的模型可以滿足不同需求,使得所有規(guī)模的企業(yè)和組織都能找到適合自己的最優(yōu)解。

其次,從實(shí)際性能表現(xiàn)來看,云端大模型對(duì)于企業(yè)核心痛點(diǎn)需求、個(gè)性化任務(wù)的處理能力,都遠(yuǎn)不如距離業(yè)務(wù)、用戶更近的邊緣端。因此其在私有化部署、個(gè)性化處理、數(shù)據(jù)安全與隱私等方面都更具差異化優(yōu)勢(shì)。另一方面,軟硬件的提升為邊端大模型走向現(xiàn)實(shí)提供了必要條件。諸多小參數(shù)模型已經(jīng)展現(xiàn)出強(qiáng)大性能表現(xiàn),邊端設(shè)備承載大模型能力的可能性顯著提高。

微軟發(fā)布的參數(shù)規(guī)模僅為3.8B、7B、14B的Phi-3系列模型,在下圖的性能對(duì)比中,參數(shù)規(guī)模較小的模型與GPT-3.5的性能差距并不大,且在一些評(píng)測(cè)指標(biāo)上已經(jīng)超過GPT-3.5??梢钥闯?,參數(shù)規(guī)模、模型大小不再是決定模型性能的唯一指標(biāo)。

同時(shí),模型的量化壓縮、模型裁剪、知識(shí)蒸餾等技術(shù)加速演進(jìn),使得大模型可以在不影響性能的前提下減小模型尺寸和計(jì)算量,從而可以部署到邊端設(shè)備中。邊緣設(shè)備需具備更強(qiáng)的計(jì)算性能,包括更高的算力、足夠的顯存和合理的功耗等。專門為邊緣計(jì)算設(shè)計(jì)的AI芯片涌現(xiàn),在硬件層面為邊端大模型落地提供了基石。可以說,不論從模型能力本身,還是邊端設(shè)備的升級(jí)優(yōu)化來看,大模型向邊端下沉已經(jīng)成為必然,且是讓大模型能為企業(yè)帶來經(jīng)濟(jì)效益提升的有效路徑。

如今,AI PC、汽車座艙大模型、智慧商顯等領(lǐng)域已經(jīng)率先展現(xiàn)出爆發(fā)潛力,成為邊端大模型落地的主要方向。全球市研機(jī)構(gòu)Canalys發(fā)布的數(shù)據(jù)顯示,今年第二季度,全球AI PC出貨量達(dá)880萬臺(tái),占當(dāng)季所有PC出貨量的14%。大模型與PC的結(jié)合使得這一設(shè)備的生產(chǎn)力工具屬性被無限放大。曾經(jīng)PC只是被用于制作PPT、處理工作的工具載體,而現(xiàn)在基于內(nèi)置AI能力,用戶只需要語音、手勢(shì)等交互,就可以讓其輔助生產(chǎn)、創(chuàng)作,快速完成一份PPT或者生成一篇文章的文章。

AI PC為用戶帶來了更好體驗(yàn),能實(shí)際解決曾經(jīng)用戶使用傳統(tǒng)PC時(shí)的諸多痛點(diǎn),并實(shí)現(xiàn)降本增效。

第二大較為突出的場景就是汽車座艙,大模型對(duì)于自然語言的理解、生成能力,使得其可以綜合處理語音、視覺、視覺等多模態(tài)數(shù)據(jù),并能夠提供千人千面的語音識(shí)別、娛樂信息及駕駛輔助個(gè)性化定制服務(wù)。相比于只能通過傳統(tǒng)物理按鍵進(jìn)行交互的傳統(tǒng)座艙,大模型加持的座艙功能可實(shí)現(xiàn)的范圍邊界逐漸外延。這也使得智能座艙市場的規(guī)模正處于飛速增長階段,全球交易咨詢服務(wù)提供商畢馬威中國預(yù)計(jì),2026年中國智能座艙市場規(guī)模將達(dá)到2127億元,5年復(fù)合增長率將超過17%。還有如今國內(nèi)企業(yè)出海加速,需要與海外客戶合作、開會(huì)等場景,智慧商顯、會(huì)議軟件等內(nèi)置的大模型加持工具可以提供實(shí)時(shí)翻譯、會(huì)議紀(jì)要生成等。這些能夠切實(shí)解決用戶辦公特點(diǎn)的功能幾乎已經(jīng)成為設(shè)備標(biāo)配。

國內(nèi)市研機(jī)構(gòu)洛圖科技的數(shù)據(jù)顯示,2024年,中國大陸會(huì)議場景中顯示產(chǎn)品的市場規(guī)模將達(dá)130億元,同比2023年增長6.5%。這些適用于大模型應(yīng)用落地的場景有一個(gè)共同特點(diǎn)就是,能夠真正基于邊端大模型的能力,為客戶真正解決痛點(diǎn)帶來價(jià)值。

02.借創(chuàng)新架構(gòu)之力破局邊端大模型落地的算力難題

大模型真正落地部署到邊端設(shè)備上,還有一個(gè)被考驗(yàn)的關(guān)鍵角色就是底層芯片玩家,其背后的挑戰(zhàn)巨大。原因在于邊端往往只有一個(gè)獨(dú)立設(shè)備,其散熱條件、體積大小等都會(huì)受限,需要芯片兼具體積小、性能強(qiáng)、功耗低。且在成本和數(shù)據(jù)方面,邊端設(shè)備玩家也更為敏感,邊端設(shè)備往往需要處理企業(yè)或個(gè)人的內(nèi)部數(shù)據(jù),數(shù)據(jù)隱私和安全更為敏感,需要防止數(shù)據(jù)泄漏和濫用。此外在一些實(shí)時(shí)性要求較高的自動(dòng)駕駛、工業(yè)控制等場景,需要大模型能夠更快響應(yīng)作出決策。

這些既對(duì)芯片玩家提出了不小的挑戰(zhàn),同時(shí)也是邊端大模型落地部署的必要條件,底層芯片玩家只有將這些已經(jīng)擺在桌子上的難題逐個(gè)擊破,才能占據(jù)先機(jī)。隨著大模型應(yīng)用落地加速,推理需求增加,芯片格局已經(jīng)從GPU一家獨(dú)大的局面向異構(gòu)CPU、NPU各路芯片群雄逐鹿的時(shí)代變遷。起初,擁有強(qiáng)大并行計(jì)算能力的GPU無疑是大模型訓(xùn)練的首選,其可以在短時(shí)間內(nèi)完成大量計(jì)算任務(wù)。

但在AI推理階段,一些場景下GPU的整體性能表現(xiàn)并非最佳。對(duì)功耗、成本敏感的邊端設(shè)備就是一大典型場景。除了居高不下的價(jià)格,GPU還因?yàn)閾碛写罅康暮诵暮途€程,需要處理大量數(shù)據(jù),但每個(gè)核心都需要消耗電能,隨之上升的就是整體能耗,再加上需要足夠高效的散熱系統(tǒng)來保證GPU在適宜溫度運(yùn)行,就會(huì)進(jìn)一步增加能耗。這一背景下,在邊端場景催生了異構(gòu)CPU和NPU兩種方案。異構(gòu)CPU就是將NPU集成于CPU之上,使其可以更好適應(yīng)不同種類任務(wù),能實(shí)現(xiàn)性能、功耗、成本的平衡,適應(yīng)多元化且復(fù)雜的計(jì)算需求。

這種設(shè)計(jì)的好處在于,一方面可以將更多的晶體管資源用在能夠進(jìn)一步提升多核性能的能效核上,或用于提升總體性能的緩存上;另一方面可以留出散熱空間,提升運(yùn)行頻率來獲取最高的單核性能。然而,集成多種不同類型的核心和技術(shù),也為邊端設(shè)備集成異構(gòu)CPU帶來了更高的設(shè)計(jì)和制造成本。再加上其編程和優(yōu)化相對(duì)復(fù)雜,需要開發(fā)者更熟知不同核心的性能和特點(diǎn)。

因此,這一架構(gòu)對(duì)于邊端設(shè)備玩家而言并不是最佳方案。專為AI設(shè)計(jì)的NPU芯片,在當(dāng)下幾乎已經(jīng)成為大模型在邊端應(yīng)用的最優(yōu)解之一。相比于異構(gòu)CPU和GPU,NPU在神經(jīng)網(wǎng)絡(luò)高效運(yùn)行方面的適配性都要更高,且其具備的高性能、低功耗優(yōu)勢(shì)也與邊端大模型部署十分契合。NPU可以根據(jù)特定應(yīng)用場景優(yōu)化,能在有效降低功耗的同時(shí),滿足邊端設(shè)備對(duì)功耗的限制。這對(duì)邊端設(shè)備部署大模型時(shí)的功耗、性能、成本等都帶來了更為靈活且可擴(kuò)展的解決方案。一方面,通過先進(jìn)工藝制程、低功耗設(shè)計(jì)技術(shù)以及算法與硬件的協(xié)同優(yōu)化,能夠提升芯片性能和能效比。另外一方面,通過架構(gòu)創(chuàng)新,提高芯片計(jì)算速度和效率。

值得一提的是,在邊端大模型落地中,芯片架構(gòu)創(chuàng)新越來越成為關(guān)鍵。存算一體、可重構(gòu)計(jì)算架構(gòu)、DSA專用領(lǐng)域架構(gòu)等諸多創(chuàng)新涌現(xiàn),為邊緣設(shè)備提供了更為強(qiáng)大的計(jì)算能力。在這之中,因?yàn)榇竽P退璧挠?jì)算量和數(shù)據(jù)存儲(chǔ)量激增,因此在強(qiáng)大算力背后,高效存儲(chǔ)和數(shù)據(jù)通信機(jī)制同樣重要,如何解決內(nèi)存墻和存儲(chǔ)墻問題成為拉開NPU利用率的關(guān)鍵。

正因如此,存算一體架構(gòu)成為其提升計(jì)算效率和降低功耗的重要途徑。存算一體架構(gòu)的優(yōu)勢(shì),主要體現(xiàn)在高效計(jì)算、功耗、性能三個(gè)維度。首先,存算一體架構(gòu)將存儲(chǔ)與計(jì)算集成在統(tǒng)一芯片上,可以避免傳統(tǒng)架構(gòu)中數(shù)據(jù)在存儲(chǔ)器處理器之間頻繁傳輸所產(chǎn)生的延遲?;诖?,邊端大模型應(yīng)用時(shí)能更快獲取和處理數(shù)據(jù),提高響應(yīng)速度,滿足實(shí)時(shí)性要求。這也在一定程度上能減少數(shù)據(jù)的搬運(yùn),減少對(duì)內(nèi)存帶寬的需求,避免大模型因內(nèi)存帶寬不足而導(dǎo)致出現(xiàn)性能瓶頸。

同時(shí),這一架構(gòu)通過在存儲(chǔ)單元中直接進(jìn)行計(jì)算,能夠同時(shí)對(duì)多個(gè)數(shù)據(jù)進(jìn)行處理,提高了計(jì)算效率和吞吐量,能夠快速處理邊端大模型應(yīng)用中語義理解、圖像識(shí)別、特征提取等復(fù)雜的計(jì)算任務(wù)。其次,功耗方面,存算一體架構(gòu)省去了傳統(tǒng)計(jì)算架構(gòu)中數(shù)據(jù)搬運(yùn)過程,能降低損耗,保證需要長時(shí)間待機(jī)或間歇性工作的邊端設(shè)備,能夠在非工作期間降低功耗損耗。因此與傳統(tǒng)架構(gòu)相比,在相同的算力輸出下,存算一體架構(gòu)的能效比有顯著提升。綜上,通過優(yōu)化數(shù)據(jù)處理方式、降低功耗、提高性能的存算一體架構(gòu),已經(jīng)為邊端大模型的部署提供了一種高效的解決方案。

03.國內(nèi)AI芯片創(chuàng)企邊端大模型系列產(chǎn)品落地最高算力100TOPS

大幅提升計(jì)算能力的存算一體芯片概念隨之日趨火熱,主攻這一技術(shù)路線的國內(nèi)AI芯片創(chuàng)企后摩智能在當(dāng)下拿出了自己的最新成果。近日,后摩智能基于存算一體推出了邊端大模型AI芯片后摩漫界M30,并基于這一芯片構(gòu)建了智算模組和力謀AI加速卡。

從M30來看,存算一體架構(gòu)已經(jīng)成為其加速邊端大模型部署落地的殺手锏。這也是一直以來后摩智能技術(shù)路線的演進(jìn)方向,用更高的性能、更低的成本、更低的功耗提供大模型運(yùn)行的計(jì)算底座。后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭透露,將持續(xù)沿著架構(gòu)創(chuàng)新這條路為邊端大模型的商業(yè)化落地,實(shí)現(xiàn)真正普惠的AI提供算力保障。

面向?qū)嶋H應(yīng)用落地場景,后摩智能考慮的維度是要兼顧計(jì)算性能以及成本、功耗以及易用性。

他補(bǔ)充說,一方面即便在端側(cè)部署,模型大小繼續(xù)上漲的趨勢(shì)仍然可能存在,更大參數(shù)規(guī)模的模型更為智能,隨之而來的就是更好的用戶體驗(yàn)、更大的商業(yè)前景,實(shí)現(xiàn)商業(yè)閉環(huán);另一方面就是持續(xù)降成本、降功耗,這也是邊端設(shè)備玩家一直關(guān)注的重點(diǎn)。

目前,后摩漫界M30最高算力可達(dá)100TOPS,典型功耗為12W,可以支持ChatGLM、Llama 2、通義千問等主流大模型,實(shí)時(shí)運(yùn)行性能可以達(dá)到每秒15-20 Tokens。同時(shí),在賦予邊端側(cè)設(shè)備大模型能力這件事,后摩智能堅(jiān)持的還有讓企業(yè)付出的成本、時(shí)間都更少。這塊芯片可以通過“+AI”的方式為邊端設(shè)備提供大模型能力。信曉旭解釋說,“+AI”的方式主要考慮企業(yè)的技術(shù)落地成本,其可以通過標(biāo)準(zhǔn)的PCIe口和原來的主處理器對(duì)接,讓企業(yè)以最少的成本和改變就能直接調(diào)用大模型能力,縮短企業(yè)的開發(fā)周期與落地部署時(shí)間。

對(duì)于數(shù)據(jù)隱私保護(hù),信曉旭認(rèn)為,大模型輸入輸出的內(nèi)容已經(jīng)從簡單的圖像、文字向音視頻、3D等形態(tài)延伸,未來用戶家庭中的攝像頭智能終端采集到的信息,如果被送往云端其隱私安全無法被保證。而本地私有化部署的邊端大模型就可以基于這些數(shù)據(jù)生成更懂用戶的AI。在產(chǎn)品布局與技術(shù)創(chuàng)新的同步推進(jìn)下,為了加速存算一體AI芯片產(chǎn)業(yè)化,后摩智能還與中國移動(dòng)正式簽署戰(zhàn)略合作,聯(lián)合推進(jìn)存算一體AI芯片的創(chuàng)新研發(fā)和量產(chǎn)應(yīng)用。同時(shí),中國移動(dòng)也是后摩智能布局邊端大模型落地業(yè)務(wù)中的重要合作伙伴。雙方的合作重點(diǎn)聚焦于智慧中屏、家庭智能終端、機(jī)器人等高度適配“+AI”模式的邊端應(yīng)用場景。

在AI PC方面,后摩智能已經(jīng)與行業(yè)頭部玩家聯(lián)想達(dá)成戰(zhàn)略合作,信曉旭談道,如果用激進(jìn)的眼光看待PC產(chǎn)業(yè)的發(fā)展,AI PC未來的核心計(jì)算單元可能會(huì)是AI,CPU可能會(huì)變成輔助。

因此,在AI PC的技術(shù)布局下,作為底層芯片玩家的后摩智能正融入頭部玩家的生態(tài)中占據(jù)先機(jī)。大模型向邊端設(shè)備下沉的產(chǎn)業(yè)趨勢(shì)已經(jīng)不可逆轉(zhuǎn),在信曉旭看來,設(shè)備更加多元化的端側(cè)和邊緣側(cè),其承載AI能力在未來會(huì)比云端更具生命力,這也是將成為真正讓AI能夠讓更多人受益的更廣泛技術(shù)和場景。身處其中的AI芯片玩家,如何實(shí)現(xiàn)芯片性能突破、產(chǎn)業(yè)鏈協(xié)同等將成為這一產(chǎn)業(yè)趨勢(shì)下?lián)屨际袌鱿葯C(jī)的護(hù)城河。

04.結(jié)語:邊端大模型亟待起飛AI芯片創(chuàng)企迎新機(jī)遇

在應(yīng)用落地端,國內(nèi)大模型產(chǎn)業(yè)已經(jīng)風(fēng)起云涌,參數(shù)規(guī)模龐大的通用大模型目前尚未看到高性價(jià)比的落地應(yīng)用場景,但靠近用戶與企業(yè)業(yè)務(wù)的邊端設(shè)備玩家已經(jīng)開始探索大模型的深度應(yīng)用??紤]到邊端設(shè)備的核心特性,后摩智能的目標(biāo)很明確,就是為合作伙伴提供足夠便宜、功耗低、易用性強(qiáng)的芯片,這樣的產(chǎn)品目標(biāo)與當(dāng)下大模型產(chǎn)業(yè)下沉趨勢(shì)的需求十分契合。

伴隨著更靠近數(shù)據(jù)源、響應(yīng)更快、延遲更低的邊端大模型展現(xiàn)出騰飛的可能,芯片玩家與之協(xié)同探索產(chǎn)業(yè)變革的機(jī)遇點(diǎn),以后摩智能為代表的國內(nèi)AI芯片玩家已經(jīng)拿出了更強(qiáng)的解決方案,這也同樣是在GPU、CPU架構(gòu)之外,創(chuàng)新架構(gòu)的市場機(jī)遇。在此背景下,錨定對(duì)解決大模型存儲(chǔ)墻有著天然優(yōu)勢(shì)存算一體架構(gòu)的后摩智能,將有望更快找到大模型深入行業(yè)的更大價(jià)值。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32F401VET6 1 STMicroelectronics High-performance access line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 84 MHz CPU, ART Accelerator

ECAD模型

下載ECAD模型
$10.53 查看
ATXMEGA128A4U-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP
$5.49 查看
AT89C51CC03CA-SLSUM 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44PLCC

ECAD模型

下載ECAD模型
$7.71 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜