加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • Transformer何方神圣?
    • 為什么要在端側(cè)、邊緣側(cè)落地大模型?
    • 如何在端側(cè)、邊緣側(cè)高效部署Transformer?
    • Transformer在視覺領(lǐng)域的潛力?
    • NPU在端側(cè)、邊緣側(cè)部署大模型的挑戰(zhàn)是什么?
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

大模型需求暴增,NPU有望在端邊落地部署

2023/06/06
5768
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

ChatGPT的火爆,讓人們意識到AI其實有著更高的上限,也讓業(yè)界更多關(guān)注到其背后的Transformer大模型。除了云端、除了自然語言處理,業(yè)界正在思考:是否可以讓Transformer在端側(cè)、邊緣側(cè)高效部署?是否可以讓Transformer在計算機視覺領(lǐng)域發(fā)揮出更大潛能?

可能嗎?愛芯元智已經(jīng)開始了這一嘗試。

Transformer何方神圣?

GPT大模型,全稱Generative Pre-training Transformer,是一種使用自回歸模型進行語言建模的預訓練模型。當下大火的ChatGPT,以及一系列AI模型,其實都離不開Transformer,它是當前各種大模型所采用的主要結(jié)構(gòu)。

要理解這個模型,可以先追溯一下歷史。業(yè)界很早就在探索一件事——如果計算機能夠像人類一樣理解語言該有多好,出于這個目的,業(yè)界開始了對自然語言處理/NLP的研究。

Transformer模型是谷歌在2017年推出的,可以說,這是深度算法領(lǐng)域的關(guān)鍵一躍,奠定了當下通用人工智能的基礎(chǔ)。這個模型可以同時處理輸入序列中所有位置的信息,避免了傳統(tǒng)的逐個處理輸入序列的方式,從而可以更加高效地進行文本處理。

接下來,綜合了各種技術(shù)和語言模型之后,Transformer模型越來越強大,并在此基礎(chǔ)上誕生了BERT、GPT等,這些語言模型應用在自然語言生成、機器翻譯、問答系統(tǒng)等,為人工智能領(lǐng)域的發(fā)展帶來了新的活力。

為什么要在端側(cè)、邊緣側(cè)落地大模型?

愛芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉認為,大模型正在使行業(yè)進入開發(fā)新范式的拐點,它也將帶來一些新機會。首先從需求角度來看,業(yè)界對端側(cè)和邊緣側(cè)AI加速是有強需求的。只不過一直以來,AI落地標準化場景效果較好,而在一些通用場景中,除非增加針對性的投入,才能進一步提升應用效果,但這同時意味著更高的成本,成為AI加速應用落地的主要困難。

其次,從大模型能夠帶來的改變來看,它能夠降低邊際場景的AI成本,因為它不需要對長尾場景做專門的、從頭到尾的適配,通過部署預訓練的大模型就能達到比較好的效果,這將使AI在端側(cè)和邊緣側(cè)的應用再上一個臺階。

如何在端側(cè)、邊緣側(cè)高效部署Transformer?

相比于在云端用GPU部署Transformer大模型,在邊緣側(cè)、端側(cè)部署Transformer最大的挑戰(zhàn)首先來自功耗,什么平臺能夠“接得住”它?這是核心考量。

當前,業(yè)界通過跑SwinT模型來看平臺對Transformer的支持情況。愛芯元智今年3月推出的第三代高算力、高能效比SoC芯片——AX650N,在運行SwinT時表現(xiàn)出色:361 FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的易部署能力,這些特性使其成為端側(cè)和邊緣側(cè)部署Transformer的首選平臺。

具體來看,361幀的高性能可媲美汽車自動駕駛領(lǐng)域基于GPU的高端域控SoC;80.45%的高精度成績同樣高于市面平均水平;199 FPS/W的速度體現(xiàn)出低功耗的特點,對比于目前基于GPU的高端域控SoC,有數(shù)倍優(yōu)勢。此外,AX650N部署方便,GitHub上的原版模型可以在愛芯元智平臺上高效運行,不需要對模型做修改,不需要QAT重新訓練。

并且,AX650N支持低比特混合精度,用戶如果采用INT4,可以極大減少內(nèi)存和帶寬占用率,可以有效控制端側(cè)邊緣側(cè)部署的成本。這些特性都保證了AX650N最終落地效果更好用、更易用,大幅提升了用戶的效率。

據(jù)介紹,AX650N已適配包括ViT/DeiT、Swin/SwinV2、DETR在內(nèi)的Transformer模型,在DINOv2也達到30幀以上運行結(jié)果,這也使得用戶在下游進行檢測、分類、分割等操作更加方便?;贏X650N的產(chǎn)品也已經(jīng)在智慧城市、智慧教育、智能制造等計算機視覺領(lǐng)域發(fā)揮出重要作用。

Transformer在視覺領(lǐng)域的潛力?

談及Transformer在視覺領(lǐng)域的潛力,劉建偉表示,視覺應用凡是對環(huán)境有感知、理解需求的,比如智慧城市、智能機器人、自動駕駛等領(lǐng)域需要用攝像頭去看畫面的,對Transformer都有比較強的需求。

不過,視覺應用場景非常碎片化,這也是以往CNN網(wǎng)絡遇到的一個普遍問題,這對Transformer來說是否能發(fā)揮所長?

愛芯元智認為,Transformer模型具有一定的畫面語意理解能力,無論是什么場景,它已經(jīng)具備了基本的理解。在以往的應用中,常見的問題是:這個場景沒見過,或是這個場景下的數(shù)據(jù)沒有標注過,因此就無法落地了。而Transformer讓大家看到了解決這個問題的希望。

以河道垃圾監(jiān)測為例:當河道上出現(xiàn)了一種垃圾,傳統(tǒng)流程是采集數(shù)據(jù)—標注—訓練,如果突然出現(xiàn)一種新的垃圾,是之前數(shù)據(jù)標注/訓練沒有覆蓋的,系統(tǒng)就無法識別,就必須重新采集。但有了采用無監(jiān)督訓練的大模型之后,無論出現(xiàn)什么樣新類型的垃圾,系統(tǒng)都能自主推理和判斷。

事實上,Transformer在視覺領(lǐng)域的嘗試其實一直都有,比如SwinT就是把Transformer用在視覺領(lǐng)域的一個模型。它和傳統(tǒng)CNN訓練方法一樣,只是上限更高,并且隨著NLP領(lǐng)域突飛猛進的發(fā)展,新的趨勢包括通過無監(jiān)督、自監(jiān)督的訓練方式。

接下來,愛芯元智AX650N將會針對Transformer結(jié)構(gòu)進行持續(xù)優(yōu)化,并且探索更多的Transformer大模型,例如多模態(tài)大模型,不斷讓Transformer在愛芯元智平臺上得到更好的落地效果。值得一提的是,愛芯元智還將推出開發(fā)板,滿足開發(fā)者對Transformer深度研究的需求,探索更豐富的產(chǎn)品應用。

NPU在端側(cè)、邊緣側(cè)部署大模型的挑戰(zhàn)是什么?

愛芯元智認為,基于NPU在端側(cè)、邊緣側(cè)部署Transformer大模型,其挑戰(zhàn)可以從軟硬件兩方面來看。從硬件架構(gòu)角度來講,NPU、TPU等都屬于特定領(lǐng)域相關(guān)的架構(gòu),需要早期定位就比較準,后續(xù)才能進行更有針對性的功能優(yōu)化。

軟件方面,相對于CNN,Transformer是一個比較新的網(wǎng)絡,推理時一般要求做量化,這往往要求一定的工程經(jīng)驗。愛芯元智在這方面探索較早,例如SwinT量化精度、浮點精度在1%以內(nèi)的誤差,都屬于業(yè)內(nèi)領(lǐng)先。

“從目前的反饋來看,客戶的體驗是覺得我們的平臺比較好用、易用,好用是指性能較高,能夠?qū)崟r跑更多的應用、對場景的適應性比較強;易用是上手速度比較快,想跑的應用基本上都能跑起來,量產(chǎn)周期也能縮短”,愛芯元智相關(guān)負責人表示。

“愛芯元智將繼續(xù)努力打造基于芯片+軟件的端側(cè)、邊緣側(cè)人工智能算力平臺,加速基于Transformer的大模型在端側(cè)、邊緣側(cè)落地的節(jié)奏,最終實現(xiàn)普惠AI造就美好生活的企業(yè)愿景”,愛芯元智創(chuàng)始人、CEO仇肖莘女士如是說。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
MC56F8345VFGE 1 Freescale Semiconductor 16-bit DSC, 56800E core, 128KB Flash, 60MHz, QFP 128
$22 查看
DS3234S#T&R 1 Maxim Integrated Products Real Time Clock, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20
$7.73 查看
MK66FN2M0VLQ18 1 NXP Semiconductors FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144

ECAD模型

下載ECAD模型
$48.66 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~