国产精品免费久久久久九九,亚洲无码黄色

當(dāng)前，AI大模型已逐漸從云端走向邊緣，甚至深入到日常生活中的手機(jī)、PC、汽車等各個(gè)終端。在這一變革中，端側(cè)智能正嶄露頭角，預(yù)示著未來智能設(shè)備將能更實(shí)時(shí)、更高效地理解和服務(wù)用戶。日前，在E維智庫第12屆中國硬科技產(chǎn)業(yè)鏈創(chuàng)新趨勢(shì)峰會(huì)暨百家媒體論壇上，安謀科技產(chǎn)品總監(jiān)鮑敏祺深入探討了端側(cè)AI應(yīng)用的廣闊前景及NPU（神經(jīng)處理單元）在其中發(fā)揮的關(guān)鍵作用。

端側(cè)大模型

鮑敏祺指出，端側(cè)AI的新機(jī)遇主要源于AIGC大模型帶來的算力提升。這些大模型已逐漸在手機(jī)上實(shí)現(xiàn)應(yīng)用，如圖片理解、關(guān)鍵信息提取等，顯著提升了用戶體驗(yàn)。例如，Apple Intelligence等大模型的發(fā)布，盡管尚未對(duì)國內(nèi)開放，但已引發(fā)廣泛關(guān)注與測(cè)評(píng)。這些應(yīng)用不僅提升了使用效率，更逐漸滲透到人們的日常生活中。

然而，端側(cè)AI的算力是否會(huì)像云端一樣持續(xù)膨脹？鮑敏祺認(rèn)為，端側(cè)模型的規(guī)模受到存儲(chǔ)帶寬的限制，而用戶體驗(yàn)的實(shí)時(shí)性至關(guān)重要，大模型必須在用戶能接受的時(shí)間內(nèi)（通常是2秒以內(nèi)）給出反饋。因此，在當(dāng)前帶寬下，部署大模型需考慮帶寬制約與用戶體驗(yàn)的平衡。

目前，眾多國內(nèi)外廠商已從商業(yè)化角度推出大模型，并達(dá)成共識(shí)——AI NPU是未來消費(fèi)類產(chǎn)品的重點(diǎn)投入對(duì)象。頭部終端廠商如OPPO、VIVO、小米、榮耀、華為等也都有相應(yīng)的解決方案。這些方案并非僅依賴端側(cè)大模型，而是與云端相輔相成，共同提升用戶體驗(yàn)。端側(cè)的優(yōu)勢(shì)在于時(shí)效性和數(shù)據(jù)本地安全性，而云端則具備更強(qiáng)的理解和計(jì)算能力。

端側(cè)AI的挑戰(zhàn)

在評(píng)估端側(cè)大模型時(shí)，語言類模型或文生圖常用作參考。但語言類模型并非端側(cè)應(yīng)用的終點(diǎn)。隨著技術(shù)發(fā)展，圖片、音頻、視頻等多模態(tài)輸入將成為常態(tài)。這些輸入需經(jīng)過壓縮和Tokenizer處理，轉(zhuǎn)換成模型能理解的Token。而LLM（大型語言模型）背后的基本原理并未改變，只是輸入和輸出過程增加了編碼和解碼步驟。

另一個(gè)挑戰(zhàn)在于，上下文長度的增長對(duì)模型性能提出更高要求。衡量語言模型的指標(biāo)包括Token per second和TTFT（Time to first token），即模型響應(yīng)輸入的時(shí)間。隨著上下文長度增加，首次延遲也會(huì)線性增長。因此，在端側(cè)容量和帶寬有限的情況下，需優(yōu)化算法以提升算力效率。

一個(gè)確定的趨勢(shì)是，AI的應(yīng)用將是多模態(tài)場景。隨著AI的發(fā)展，人們很可能將更多地與智能體（Agent）進(jìn)行交互。這些智能體不僅能理解和執(zhí)行任務(wù)，還能通過強(qiáng)化學(xué)習(xí)不斷優(yōu)化自己的行為。

在多模態(tài)場景下，AI的應(yīng)用將不再局限于傳統(tǒng)設(shè)備。從手持設(shè)備到邊緣計(jì)算、PC、汽車，再到云端，AI將無處不在。然而，不同場景對(duì)AI算力的需求各不相同。手持設(shè)備由于功耗和芯片面積的限制，通常只能支持1-10B的模型體量。而在Edge、PC、Auto端，模型體量可能達(dá)到10-70B。在云端，由于有充足的資源和帶寬，模型體量可以超過100B，從而接受各種知識(shí)，進(jìn)行持續(xù)迭代。

AI的賦能不僅限于傳統(tǒng)設(shè)備，它還能為以前看似市場前景有限的終端設(shè)備帶來新的生命力。例如，通過賦予可穿戴設(shè)備簡單的語音控制和視覺拍照功能，這些設(shè)備可能突然變得非常流行。這種多模態(tài)的輸入和直接使用的功能，使得這些設(shè)備在競爭激烈的市場中脫穎而出。

然而，端側(cè)AI也面臨著諸多挑戰(zhàn)。首先是成本、功耗和生態(tài)系統(tǒng)的問題。存儲(chǔ)介質(zhì)的帶寬和成本是制約端側(cè)AI發(fā)展的關(guān)鍵因素。盡管存儲(chǔ)技術(shù)不斷進(jìn)步，但端側(cè)設(shè)備仍然無法像云端那樣擁有TB級(jí)別的帶寬。此外，端側(cè)設(shè)備的芯片面積和計(jì)算資源也非常有限。

第二個(gè)挑戰(zhàn)是功耗問題。在AI應(yīng)用中，數(shù)據(jù)的搬運(yùn)是功耗的主要來源。對(duì)于大模型來說，由于顯存占用大，無法像CNN那樣通過高復(fù)用度來提高能效。因此，如何降低數(shù)據(jù)搬運(yùn)的功耗成為了一個(gè)亟待解決的問題。

此外，軟件和工具的優(yōu)化也是一大挑戰(zhàn)。AI模型需要不斷迭代優(yōu)化才能滿足用戶需求。然而，當(dāng)前的軟件和工具在支持大模型優(yōu)化方面還存在不足。

NPU的關(guān)鍵作用

鮑敏祺表示，針對(duì)這些挑戰(zhàn)，安謀科技推出的“周易”NPU采取了一系列應(yīng)對(duì)策略。首先，它在保留CNN能力的同時(shí)，增強(qiáng)了對(duì)transformer大模型的支持。通過優(yōu)化微架構(gòu)和計(jì)算能力，提升了transformer的運(yùn)算效率。其次，“周易”NPU注重?cái)?shù)據(jù)本地化，通過混合精度量化和無損壓縮來減少數(shù)據(jù)搬運(yùn)和提升有效帶寬。此外，它還針對(duì)大模型進(jìn)行了總線帶寬的擴(kuò)展，以滿足解碼等場景對(duì)帶寬的高需求。

為了進(jìn)一步提升能效，“周易”NPU還采用了數(shù)據(jù)并行、模型并行、負(fù)載均衡和Tiling等技術(shù)。同時(shí)，它也支持異構(gòu)策略，可以獨(dú)立執(zhí)行AI任務(wù)，并根據(jù)需求自由裁剪。在端側(cè)應(yīng)用中，“周易”NPU還采用了power gating和low power策略，以降低不必要的功耗。

通過這些創(chuàng)新技術(shù)，“周易”NPU有效應(yīng)對(duì)了端側(cè)AI面臨的挑戰(zhàn)，為多模態(tài)場景下的AI應(yīng)用提供了強(qiáng)有力的支持。而針對(duì)不同應(yīng)用場景，如智能汽車、手機(jī)PC、AIOT等，安謀科技也制定了差異化的策略。

在智能汽車領(lǐng)域，安謀科技關(guān)注智艙一體等趨勢(shì)，提供了全面的IP解決方案。這包括GPU用于渲染顯示，前級(jí)處理攝像頭的能力，以及SPU用于安全相關(guān)的功能。特別值得注意的，“周易”NPU具備20到320TOPS的可擴(kuò)展性，以滿足不同場景下的算力需求。例如，在汽車IVI場景中，算力要求相對(duì)較低；而在ADAS場景中，由于需要執(zhí)行多任務(wù)，特別是CNN場景，算力需求則顯著提升。“周易”NPU的靈活性使得它能夠適應(yīng)各種汽車場景，實(shí)現(xiàn)完整端到端的解決方案。

對(duì)于AI加速卡場景，安謀科技關(guān)注輸入與輸出的高效處理，特別是圖像和視頻數(shù)據(jù)的輸入與AI計(jì)算的輸出。加速卡具備HOST AP交互能力，并強(qiáng)調(diào)安全性，如JPEG解碼能力和根據(jù)實(shí)際需求定制的NPU。根據(jù)應(yīng)用場景的不同，如NVMe存儲(chǔ)形式、車載或手機(jī)等，TDP功耗和算力需求也會(huì)有所差異。能效比是一個(gè)重要考慮因素，例如在5瓦TDP功耗下，有效算力可達(dá)25TOPS左右。整個(gè)解決方案多樣，不僅針對(duì)語言模型，還著眼于未來多模態(tài)模型的需求。

在AIOT場景中，算力需求相對(duì)較低，但受到AIOT設(shè)備面積和功耗的限制。然而，對(duì)安全性的要求卻更高，包括firmware和security的強(qiáng)化。與服務(wù)器或板卡等密封形式不同，AIOT場景對(duì)安全性的需求進(jìn)一步提升。安謀科技的“周易”NPU能夠在此類場景中提供20TOPS到320TOPS的算力裁減，主要用于聲音和圖象的檢測(cè)?？紤]到端側(cè)可能放置較低精度的模型以保證量化效果，整個(gè)解決方案在保障安全的同時(shí)，也通過一定算力的內(nèi)容對(duì)語音類場景進(jìn)行AI加速。

結(jié)語

隨著技術(shù)不斷進(jìn)步和創(chuàng)新，未來的智能設(shè)備將更加智能、高效、便捷，NPU也將在未來發(fā)揮更加重要的作用。據(jù)悉，安謀科技的下一代“周易”NPU在生態(tài)上已廣泛部署了Wenxin、Llama、GPT等模型，并在端側(cè)覆蓋了PAD、PC、Mobile等各類場景。對(duì)于智能汽車領(lǐng)域，無論是IVI還是ADAS場景，都能根據(jù)實(shí)際算力需求和模型提供針對(duì)性的解決方案，最高可達(dá)320TOPS的算力。