隨著人工智能、智能座艙、自動駕駛等前沿技術的不斷演進,智能終端創(chuàng)新步伐加速,新興應用場景如智能汽車、AI PC、AI手機、智能家居、工業(yè)機器等層出不窮,消費者對智能設備的信息交互和娛樂需求也日益多樣化。
這其中,多媒體處理器的應用發(fā)揮著重要作用,不僅限于終端設備,還涵蓋了云端服務器。
安謀科技多媒體處理器研發(fā)負責人周華表示,多媒體處理器的應用范圍已經(jīng)基本覆蓋了“端+邊+云”等各類場景,并且涉及視頻圖像處理的產(chǎn)品迭代速度驚人。
以車載應用為例,根據(jù)第三方數(shù)據(jù),國內(nèi)車載攝像頭的數(shù)量已經(jīng)從2022年的5000萬顆增長到現(xiàn)在的1億顆,年增長率超過25%。同時,智能汽車的大屏化、多屏化趨勢明顯,車載顯示市場規(guī)模預計將在2025年超過1200億元。同時,3A游戲等高端應用也對多媒體處理器提出更高的要求,沒有高性能的顯示處理器和視頻編解碼器,3A游戲的體驗將會大打折扣。
此外,國家政策也大力支持多媒體產(chǎn)業(yè)的發(fā)展,從2017年開始,幾乎每年都會推出相關政策來鼓勵和引導超高清電視產(chǎn)業(yè)的發(fā)展。
可以說,超高清畫質(zhì)、跨屏聯(lián)動、多屏異顯等趨勢的興起,對圖像顯示技術的實時處理、畫質(zhì)增強及數(shù)據(jù)安全等關鍵能力都提出了更高的要求。
為應對這些挑戰(zhàn),安謀科技推出了首款本土自研的圖像顯示處理器——“玲瓏”D8/D6/D2 DPU,以及新一代超高清視頻處理核芯——“玲瓏”V510/V710 VPU。
8K級圖像顯示“芯”引擎
據(jù)安謀科技DPU高級產(chǎn)品經(jīng)理柴衛(wèi)華介紹,“玲瓏”D8/D6/D2 DPU為智能設備圖像顯示提供了強大動力,可靈活按需配置架構,確保了低延時、低系統(tǒng)帶寬以及高數(shù)據(jù)安全。
圖1:“玲瓏” D8/D6/D2 DPU概覽
該系列中,D8主要針對高性能顯示應用場景,能夠?qū)崿F(xiàn)每秒8K60幀的實時顯示處理,或單IP核支持4個每秒4K60幀的實時顯示輸出;D6則針對性能與能效優(yōu)化的顯示應用場景,可實現(xiàn)每秒8K30幀或4K120幀的實時顯示處理,或單IP核支持2個每秒4K60幀的實時顯示輸出;D2用于高能效比顯示的應用場景,可實現(xiàn)每秒2K60幀的實時顯示處理。
"玲瓏"D8/D6/D2 DPU不僅兼具高性能、高畫質(zhì)與高靈活性,實現(xiàn)實時顯示處理,還采用多核架構,支持按需配置與編程,滿足客戶定制化需求,輕松擴展性能并優(yōu)化系統(tǒng)開銷。此外,通過集成Arm系統(tǒng)存儲管理單元MMU-600/700中的轉(zhuǎn)換緩沖單元(TBU)模塊及Arm幀緩沖壓縮(AFBC)技術,該系列實現(xiàn)了超低延時與系統(tǒng)帶寬的最大化降低。同時,該系列支持Arm TZMP架構的軟硬一體設計,為顯示數(shù)據(jù)的安全性提供了有效保障。
圖2:“玲瓏” D8/D6/D2 DPU架構
該DPU系列采用可配置的模塊化架構,配置靈活,可以實現(xiàn)智能場景全覆蓋。其面向多場景的高效設計支持多達16層內(nèi)容輸入,并通過獨特的Smart Layer技術確保超過16層內(nèi)容的疊加顯示,實現(xiàn)靈活高效的內(nèi)容管理。
在圖像處理方面,其深度流水設計支持SDR與HDR內(nèi)容輸入輸出及多種影像圖形格式,前后級配置Gamma與Gamut管理,支持1/6到64倍縮放及圖像增強,同時提供水平、垂直鏡像,90°、180°、270°旋轉(zhuǎn)及任意組合功能,并具備可拓展協(xié)處理接口。
柴衛(wèi)華強調(diào),在研發(fā)設計時,安謀科技重視IP對系統(tǒng)的整體支持。"玲瓏"D8/D6/D2 DPU采用標準接口如AXI、APB、DPI,并進行了三方面系統(tǒng)優(yōu)化:內(nèi)置Arm標準的AFBC技術以緩解AI帶寬壓力;集成MMU-600/700的TBU單元以實現(xiàn)內(nèi)存靈活管理,降低系統(tǒng)管理難度;深度協(xié)同Arm TZMP技術,增強用戶信息安全及數(shù)據(jù)保護,支持標準顯示、DRM及Trusted display等多種模式。
周華進一步解釋了"玲瓏"D8/D6/D2 DPU的技術細節(jié),該DPU系列的架構核心包括Global Control Unit、帶AFBC的DMA(專用于數(shù)據(jù)傳輸)及四條完整的顯示處理單元,這些單元負責圖像的合并、疊加與最終輸出,并能同時支持4個實時顯示。
該DPU系列展現(xiàn)出高度的可擴展性,分辨率覆蓋從1080P至8K60幀,且顯示輸出數(shù)量可在1至4個之間靈活配置;為了滿足多媒體場景下客戶群體的多樣化需求,其pipeline、功能及特性均可根據(jù)客戶具體要求進行定制。在長期持續(xù)的優(yōu)化過程中,有價值的定制內(nèi)容將被整合進主干,以便更多客戶能夠直接使用。
值得一提的是,它對Arm MMU-600/700的支持已經(jīng)在客戶實際應用中得到了驗證。為了滿足客戶的獨特需求,該DPU系列還提供了一個特別接口,允許客戶將他們對圖像顯示、圖片畫質(zhì)的特殊要求和算法接入到pipeline中,從而在標準產(chǎn)品無法完全滿足需求時,幫助客戶實現(xiàn)獨家競爭力。
首批支持H.266標準的新一代超高清視頻處理核芯?
高清、實時的視頻處理能力在智能駕駛、智能安防、智能家居、無人機、AR/VR等前沿終端應用領域顯得尤為重要。同時,數(shù)據(jù)中心和云計算領域?qū)?a class="article-link" target="_blank" href="/tag/%E5%A4%A7%E6%A8%A1%E5%9E%8B/">大模型訓練和推理任務的處理速度和效率也提出了更高要求。
巨大的需求潛力推動全球視頻流媒體市場持續(xù)擴張,預計2021-2028年間復合年增長率為20%。安謀科技VPU高級產(chǎn)品經(jīng)理董峰表示,在視頻編碼領域,最新一代H.266標準相較于前代,在8K超高清等多種視頻類型及流媒體應用中表現(xiàn)出色,平均編碼性能提高49%。
相比AV1等其他同時代技術,H.266展現(xiàn)出長期多維度進步的潛力。與上一代H.265相比,H.266實現(xiàn)了50%的壓縮比提升,并在高分辨率、8K級別、色域及寬動態(tài)能力等方面均有明顯改善。
此外,H.266標準還廣泛適應多種業(yè)務場景需求,包括辦公桌面系統(tǒng)、低延時、云游戲、AR/VR等新興用戶體驗,使得其在全業(yè)務場景下能帶來全面提升。
目前,國內(nèi)頭部互聯(lián)網(wǎng)內(nèi)容商已開始部署H.266內(nèi)容,進行從端側(cè)到云端的轉(zhuǎn)碼優(yōu)化,尤其在低碼率和帶寬頻繁變化的場景下,H.266技術能帶來更佳的實際體驗。
面向這一需求,安謀科技推出了“玲瓏”V510/V710 VPU。作為國內(nèi)首批同時支持H.266標準的編碼及解碼視頻處理器IP,“玲瓏”V510/V710 VPU采用了多核多格式編解碼融合的可編程處理架構,大幅節(jié)省了存儲空間及帶寬成本,并助力合作伙伴基于不同應用場景進行靈活多樣的性能與功耗配置。
該系列中,V510系列主要面向4K及以下視頻的應用場景,最多可支持4核配置;V710系列則針對高端的8K視頻應用場景,最多可支持8核配置。
圖3:“玲瓏” V510/V710 VPU概覽
董峰表示,相較于上一代產(chǎn)品,V510 VPU有三大提升:首先,其H.264與H.265編碼性能實現(xiàn)翻倍,600兆時可支持4K30幀,而7納米工藝下1.2G則可達4K60幀;其次,與V6 VPU的H.265相比,V510 VPU的H.266編碼質(zhì)量提升了30%,這與其IP適用場景緊密相關;最后,相較于H.265的very slow檔次(常用于云端轉(zhuǎn)碼與直播的CPU軟編),V510 VPU的H.266編碼質(zhì)量提高了20%。
該VPU系列采用多核處理架構,確保了軟硬件間的高交互性和強可擴展性,可以輕松應對多樣化場景需求。同時,配備多重視頻編解碼器,不僅支持H.266標準的編解碼,還兼容各種主流視頻標準。通過集成內(nèi)存管理單元(MMU),有效提升了系統(tǒng)效率并降低了系統(tǒng)復雜度。此外,該VPU系列精準匹配本地市場需求,提供特定的視頻處理技術功能,并輔以全面的系統(tǒng)解決方案,包括配套的固件工具及軟件,全方位滿足用戶需求。
該VPU系列配置靈活,其多核性能可按需線性堆疊,單核即能支持每秒4K60幀的編碼或解碼,同時,其創(chuàng)新融合編解碼功能模塊,顯著減小硅面積,并提供豐富靈活的前后處理、軟件、驅(qū)動及固件支持。
這里值得注意的是編解碼融合架構。董峰指出,在VPU場景中,若采用編碼與解碼分離的架構,將需要在兩個層面分別增加內(nèi)存,涵蓋流水線等各個方面。為優(yōu)化這一問題,“玲瓏”VPU采用了編解碼融合的架構,該架構致力于內(nèi)部pipeline的復用,通過技術層面的細致分解,將任務劃分至加速器與數(shù)據(jù)流層級。
該架構在控制方式上,是采用MCU控制而非純硬件控制,以應對不同模式下數(shù)據(jù)流控制的顯著差異。此外,“玲瓏”VPU在數(shù)據(jù)處理中創(chuàng)新性地實施了條帶級任務劃分,并在架構層面進行了大量細致的分解與考量,從而實現(xiàn)了多核并行與性能的線性提升,同時也帶來了顯著的硅面積收益(較非融合編解碼架構面積小1.3-1.4倍)。
周華補充道,這種架構具有較高的門檻,在某種程度上類似于SoC,主要針對業(yè)務場景數(shù)據(jù)流的管理。安謀科技擅長以這樣的思路為切入點進行系統(tǒng)級架構設計,在IP層面擁有強大的系統(tǒng)化能力。他強調(diào),這種架構是安謀科技與友商的一個關鍵差別。
在編解碼性能方面,針對H.266,該VPU系列具備每秒高達120幀的8K視頻編碼與解碼能力,且H.264/HEVC的性能和主客觀編碼質(zhì)量均得到全面提升。此外,該VPU系列廣泛支持包括H.266、H.265、H.264等在內(nèi)的主流視頻編碼標準,以及H.266、AV1、H.263等多種解碼標準,確保了廣泛的兼容性。
在視覺效果上,"玲瓏"V510/V710 VPU新增了屏幕顯示菜單OSD前處理,支持長參考幀以節(jié)省傳輸帶寬并顯著提升圖像質(zhì)量,同時后處理功能支持按任意比率縮小,YUV2RGB轉(zhuǎn)換則能在不同類型面板上實現(xiàn)最佳內(nèi)容顯示。
值得注意的是,"玲瓏" VPU的處理內(nèi)核是MCU。周華表示,當前全球VPU產(chǎn)品存在三大主流門派:純硬件、內(nèi)置小CPU(單核)以及安謀科技獨特的5個小型MCU內(nèi)置架構。安謀科技這種創(chuàng)新架構在市場上堪稱獨一無二,它賦予了產(chǎn)品極高的靈活性,當然,這也大幅增加了驗證的復雜性和資源投入。
這種獨特架構的核心優(yōu)勢在于結合了硬件、MCU以及運行在MCU上的firmware固件和軟件。MCU+firmware的配置解決了芯片開發(fā)中的一大痛點:流片后無法修改。
傳統(tǒng)上,任何改動都需重新進行EAC和流片,成本極高,有了firmware固件后,即使在流片后,開發(fā)者仍能對碼率控制、主觀質(zhì)量等進行調(diào)整優(yōu)化,甚至解決一些硬件bug。此外,firmware與硬件的緊密交互大大減輕了主CPU的負擔,使得即便使用算力較低的老式單片機也能驅(qū)動其VPU產(chǎn)品。
因此,這一架構不僅獨特創(chuàng)新,而且?guī)砹酥T多好處,安謀科技一直沿用至今。
Arm獨特的無損壓縮技術AFBC是VPU或DPU開發(fā)中的常用技術,周華強調(diào),“玲瓏”VPU/DPU能夠完全兼容Arm技術體系結構,與Mali GPU之間的數(shù)據(jù)實現(xiàn)無縫鏈接,壓縮標準相互識別、格式相通。
結語
安謀科技預計從今年年底到明年,H.266的相關應用會進入布局周期。周華表示,目前能夠支持H.266的IP廠家不多,這將成為安謀科技的抓手,抓住一些高端場景和客戶,搶到先機,明年在客戶產(chǎn)品布局上會發(fā)揮更大的作用。
自2018年獨立運營以來,安謀科技始終致力于自研創(chuàng)新,先后推出了包括“周易”NPU、“星辰”CPU、“山?!盨PU、“玲瓏”VPU及DPU在內(nèi)的多款處理器產(chǎn)品線,構建了一個成熟且高效協(xié)同的自研產(chǎn)品矩陣。此次“玲瓏”VPU及DPU新產(chǎn)品的發(fā)布,不僅進一步完善了該公司的自研產(chǎn)品矩陣、推動了市場應用與商業(yè)化落地,也將進一步強化其生態(tài)建設與合作,提升其行業(yè)競爭力。