當(dāng)GPU以其強(qiáng)大的并行計(jì)算能力,登上AI算力王座時(shí),AI芯片領(lǐng)域的競(jìng)爭(zhēng)在日趨激烈。其中,神經(jīng)網(wǎng)絡(luò)處理器(NPU)作為一股重要的力量,也在悄然崛起。
就像GPU從最初的圖像渲染和通用并行計(jì)算,逐步引入越來(lái)越多的神經(jīng)網(wǎng)絡(luò)功能(比如 Tensor Cores、Transformer等),NPU 也在“雙向奔赴”,在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,融入越來(lái)越強(qiáng)大的通用計(jì)算功能。
由于NPU針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行了專(zhuān)門(mén)的優(yōu)化,在處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時(shí)有更高的效率和更低的能耗,特別是在端側(cè)和邊緣側(cè),能夠?yàn)锳I應(yīng)用提供有力的支撐。從近期的種種市場(chǎng)動(dòng)態(tài)來(lái)看,NPU有望開(kāi)啟大規(guī)模商用時(shí)代。
國(guó)產(chǎn)NPU IP持續(xù)上量
近年來(lái),國(guó)產(chǎn)NPU最顯著的應(yīng)用就是手機(jī),比如華為的麒麟9000處理器,通過(guò)對(duì)ISP和NPU進(jìn)行融合,大大提升了數(shù)據(jù)的緩沖和處理效率;OPPO曾經(jīng)的自研NPU馬里亞納X,在拍照、拍視頻等大數(shù)據(jù)流場(chǎng)景下實(shí)現(xiàn)了更好的運(yùn)算效率,助OPPO拉開(kāi)了在高端智能手機(jī)領(lǐng)域的體驗(yàn)差距。
隨著AI需求逐漸從云端傳導(dǎo)到邊緣和端側(cè),端、邊市場(chǎng)的AI算力需求在逐漸爆發(fā),推動(dòng)新一輪本地AI算力的升級(jí)潮,而NPU有望成為本地AI任務(wù)的算力主力。
芯原近日宣布,集成其N(xiāo)PU IP的AI芯片在全球范圍內(nèi)出貨超過(guò)1億顆,已被72家客戶(hù)用于128款A(yù)I芯片中,用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車(chē)電子等10個(gè)市場(chǎng)領(lǐng)域。
芯原的NPU基于GPU架構(gòu)體系進(jìn)行優(yōu)化,利用其可編程、可擴(kuò)展及并行處理能力,為各類(lèi)主流AI算法提供硬件加速的微處理器技術(shù)。最新一代NPU架構(gòu)包括GPGPU處理模塊PPU和AI處理模塊Tensore Core,GPGPU支持大規(guī)模通用計(jì)算和類(lèi)ChatGPT應(yīng)用,Tensor Core在處理器架構(gòu)、AI軟件框架及工具、功耗與效能等方面進(jìn)行創(chuàng)新,在卷積神經(jīng)網(wǎng)絡(luò)、高算力低功耗等技術(shù)上實(shí)現(xiàn)了突破。通過(guò)NPU IP架構(gòu)和GPU的融合,可以支持圖形渲染、通用計(jì)算以及AI處理。
圖:芯原 NPU IP+GPU IP融合的計(jì)算平臺(tái)(來(lái)源:芯原官微)
芯片IP設(shè)計(jì)與服務(wù)供應(yīng)商安謀科技,在成立之初即開(kāi)始自研首款“周易”NPU,目前該產(chǎn)品線(xiàn)已迭代了Z系列和X系列的多款產(chǎn)品,滿(mǎn)足各種端側(cè)硬件設(shè)備的不同AI計(jì)算需求,應(yīng)用于中高端安防、智能家居、移動(dòng)設(shè)備、物聯(lián)網(wǎng)、智能座艙、ADAS、邊緣服務(wù)器等市場(chǎng)。
最新的“周易”NPU采用第三代“周易”架構(gòu),在算力、精度、靈活性等方面進(jìn)行了大幅提升,支持多核Cluster,最高可達(dá)320TOPS子系統(tǒng),并通過(guò)TSM任務(wù)調(diào)度充分發(fā)揮計(jì)算單元效能以及采用i-Tiling技術(shù)大幅減少帶寬,支持大模型的基礎(chǔ)架構(gòu)Transformer。
圖:新一代“周易”NPU主要功能升級(jí)(來(lái)源:安謀科技官網(wǎng))
據(jù)了解,在下一代“周易”NPU的設(shè)計(jì)上,安謀科技將從精度、帶寬、調(diào)度管理、算子支持等多個(gè)方面對(duì)主流大模型架構(gòu)進(jìn)行迭代優(yōu)化,為端側(cè)AI落地提供關(guān)鍵性的算力支撐。商業(yè)化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠(chǎng)商實(shí)現(xiàn)了合作。
巨頭紛紛入場(chǎng),生態(tài)快速成長(zhǎng)的訊號(hào)
隨著生成式AI的應(yīng)用場(chǎng)景不斷擴(kuò)大,NPU能夠滿(mǎn)足基于Transformer架構(gòu)的大模型需求,有望在這一趨勢(shì)下滲透到更多深層場(chǎng)景,進(jìn)一步拓展產(chǎn)業(yè)生態(tài),特別是在巨頭的推動(dòng)下,有望迎來(lái)高速增長(zhǎng)。
高通最近就提出,通過(guò)NPU和異構(gòu)計(jì)算將開(kāi)啟終端側(cè)生成式AI時(shí)代。其Hexagon NPU面向低功耗、高性能的AI推理而設(shè)計(jì),通過(guò)定制設(shè)計(jì)NPU和控制指令集架構(gòu)(ISA),能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展。
根據(jù)官方資料,高通的DSP控制和標(biāo)量架構(gòu)奠定了NPU的基礎(chǔ)。多年來(lái),通過(guò)融入標(biāo)量、向量和張量加速器以及分組卷積等改進(jìn),不斷進(jìn)行了提升。迭代到目前第三代驍龍8中的Hexagon NPU是專(zhuān)門(mén)針對(duì)終端側(cè)生成式AI大模型推理的最新設(shè)計(jì),包括了跨整個(gè)NPU的微架構(gòu)升級(jí)、微切片推理升級(jí)等,為持續(xù)的AI推理實(shí)現(xiàn)了98%的性能提升和40%的能效提升。
從架構(gòu)路線(xiàn)來(lái)看,高通認(rèn)為由DSP架構(gòu)入手打造NPU是正確選擇,因?yàn)榭梢愿纳瓶删幊绦?,并能夠緊密控制用于AI處理的標(biāo)量、向量和張量運(yùn)算。
而除了高通,兩大處理器巨頭英特爾和AMD也在積極擁抱NPU。
去年12月8日,AMD發(fā)布了銳龍8040系列處理器,最核心的變化之一就是新增了AI計(jì)算單元。根據(jù)AMD的說(shuō)法,得益于NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出,例如Llama 2大語(yǔ)言模型性能提升40%,視覺(jué)模型提升40%。
一周之后,英特爾新一代酷睿Ultra移動(dòng)處理器正式發(fā)布,這是其40年來(lái)第一個(gè)內(nèi)建NPU的處理器,用于在PC上帶來(lái)高能效的AI加速和本地推理體驗(yàn),這也是英特爾客戶(hù)端處理器路線(xiàn)圖的一個(gè)轉(zhuǎn)折點(diǎn)。英特爾將NPU與CPU、GPU共同視作AI PC的三個(gè)底層算力引擎。
據(jù)其介紹,2024年,將有230多款機(jī)型搭載酷睿Ultra。
盡管巨頭在NPU的打造路線(xiàn)上各有千秋,但是都無(wú)一例外地看準(zhǔn)了一個(gè)機(jī)會(huì)——端側(cè)AI,而擁有專(zhuān)門(mén)的NPU成為端側(cè)AI的一大特點(diǎn),NPU正在成為本地運(yùn)行AI任務(wù)的主力。
當(dāng)前,高通主要以AI手機(jī)、XR、AI PC等為主,AMD和英特爾則主要在AI PC布局。
AI手機(jī)方面,IDC直接依據(jù)NPU算力將其分為兩類(lèi),一類(lèi)是已經(jīng)在市面上銷(xiāo)售了近十年的硬件賦能AI手機(jī)(≤30NPU TOPS):使用加速器或除主要應(yīng)用處理器之外的專(zhuān)用處理器,以較低功耗運(yùn)行端側(cè)的AI。這類(lèi)手機(jī)最近轉(zhuǎn)向使用NPU內(nèi)核,使用int-8 數(shù)據(jù)類(lèi)型,性能達(dá)30 TOPS。端側(cè)AI的示例包括自然語(yǔ)言處理(NLP)和計(jì)算攝影。
另一類(lèi)則是最新一代的AI手機(jī)(>30 NPU TOPS):這些智能手機(jī)使用能夠更快、更高效地運(yùn)行端側(cè)生成式AI模型的SoC,并且使用int-8數(shù)據(jù)類(lèi)型的NPU性能至少為30 TOPS。端側(cè)的生成式AI示例包括Stable Diffusion和各種大型語(yǔ)言模型。這類(lèi)智能手機(jī)在2023年下半年首次進(jìn)入市場(chǎng)。
AI PC方面,目前市場(chǎng)整體處于AI Ready向AI On的過(guò)渡階段。據(jù)Canalys預(yù)測(cè),兼容AI的個(gè)人電腦有望在2025年滲透率達(dá)到37%,2027年兼容AI個(gè)人電腦約占所有個(gè)人電腦出貨量的60%,未來(lái)AI PC的主要需求來(lái)源為商用領(lǐng)域。同時(shí)AI PC將會(huì)為PC行業(yè)發(fā)展提供新動(dòng)能,根據(jù)IDC預(yù)測(cè),中國(guó)PC市場(chǎng)將因AI PC的到來(lái),結(jié)束負(fù)增長(zhǎng),在未來(lái)5年中保持穩(wěn)定的增長(zhǎng)態(tài)勢(shì)。
多模態(tài)、輕量化,促進(jìn)端側(cè)AI算力持續(xù)升級(jí)
AI一直致力于以技術(shù)實(shí)現(xiàn)計(jì)算機(jī)對(duì)于人類(lèi)認(rèn)知世界方式的高度效仿。而多模態(tài)AI的興起,使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。除傳統(tǒng)的語(yǔ)言以及圖像間的交互作用,其結(jié)合聲音、觸覺(jué)以及動(dòng)作等多維度信息進(jìn)行深度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對(duì)人類(lèi)認(rèn)知能力的模擬。
目前看來(lái),提供自然語(yǔ)音用戶(hù)界面以提高生產(chǎn)力、同時(shí)增強(qiáng)用戶(hù)體驗(yàn)的個(gè)人助手,正在成為流行的AI應(yīng)用。語(yǔ)音識(shí)別、大語(yǔ)言模型和語(yǔ)音模型,將以某種并行方式運(yùn)行,因此理想的情況是在NPU、GPU、CPU等處理器之間分布處理模型。對(duì)于端側(cè)設(shè)備來(lái)說(shuō),比如PC,出于性能和能效考慮,應(yīng)當(dāng)盡可能在NPU上運(yùn)行。
根據(jù)Trendforce,微軟計(jì)劃在Windows12為AI PC設(shè)置最低門(mén)檻,需要至少40TOPS算力和16GB內(nèi)存。也就是說(shuō),PC芯片算力跨越40TOPS門(mén)檻將成為首要目標(biāo),這也將進(jìn)一步推進(jìn)NPU的升級(jí)方向,比如:提升算力、提高內(nèi)存、降低功耗,芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計(jì)算優(yōu)化和內(nèi)存升級(jí)。
此外還有輕量化模型發(fā)展趨勢(shì),NPU芯片以其低功耗、高效率的特點(diǎn),成為實(shí)現(xiàn)輕量化AI大模型在邊緣設(shè)備上運(yùn)行的關(guān)鍵。
自 2023 年起,大模型參數(shù)量出現(xiàn)顯著分化,輕量化模型的出現(xiàn)逐步推動(dòng)AI向端側(cè)場(chǎng)景落地。比如最近就有谷歌發(fā)布的開(kāi)源輕量化大模型 Gemma,該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建,有2B和7B兩個(gè)版本,可以直接在筆記本和臺(tái)式機(jī)部署。
由于輕量化模型可以降低在邊緣側(cè)部署的成本門(mén)檻,使模型的下游應(yīng)用程序適合于更多的應(yīng)用程序和用戶(hù),因此為大模型推理計(jì)算從云端向邊緣端轉(zhuǎn)移提供了可能,使AI技術(shù)更廣泛地應(yīng)用于各種場(chǎng)景成為可能。
寫(xiě)在最后
在AI從云到邊、端的下沉運(yùn)動(dòng)中,不論是應(yīng)用類(lèi)型的多樣化、還是技術(shù)本身的突破,或是巨頭的大規(guī)模開(kāi)“卷”,都代表著NPU終于迎來(lái)重要拐點(diǎn),有望開(kāi)啟一個(gè)大規(guī)模商用的全新時(shí)代。
從早期主要面向音頻和語(yǔ)音AI應(yīng)用而設(shè)計(jì),基于簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行標(biāo)量和向量數(shù)學(xué)運(yùn)算;再到拍照和視頻AI的興起,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等復(fù)雜的全新模型,NPU逐漸增加了張量加速器和卷積加速,處理效率大幅提升。
再到近兩年,隨著大語(yǔ)言模型(LLM)和大視覺(jué)模型(LVM)的爆發(fā),模型的大小提升超過(guò)了一個(gè)數(shù)量級(jí)。我們看到,NPU不斷在功耗、性能、能效、可編程和面積之間尋求權(quán)衡,保持與AI發(fā)展方向的一致性,并始終在尋求更大的發(fā)展空間。
算力始終是AI應(yīng)用的基石,考慮到NPU的靈活性和高速的運(yùn)算效率,它是否有望到達(dá)GPU的高度,讓業(yè)界說(shuō)一句:無(wú)NPU,不AI?