在线观看亚洲中文AV,97久久综合欧美久久,91亚洲短视频午夜

在剛剛結(jié)束的2022華為開發(fā)者大會（HDC2022）上，升級版的手語數(shù)字人再次亮相，為大會的主題演講進(jìn)行了實時翻譯。

相較去年HDC，手語數(shù)字人不僅在形象上有了優(yōu)化，覆蓋手語詞匯量更是提高到了2萬+，還能支持多達(dá)26種面部表情和準(zhǔn)確的口動，在需要的時候?qū)崿F(xiàn)恰當(dāng)?shù)那榫w化表達(dá)，大大提高了手語的可懂度。

這樣一個會手語的數(shù)字人，已不僅限于連續(xù)兩年在華為開發(fā)者大會上“嶄露頭角”了。其實在政府網(wǎng)站、學(xué)校和移動應(yīng)用等場景，手語數(shù)字人也已經(jīng)逐漸上崗。

實際上，制作一個精良的數(shù)字人并不簡單，如果要求高度定制化，技術(shù)門檻只會更上一個臺階。

這也導(dǎo)致當(dāng)下數(shù)字人頗有種大廠“奢侈品”的味道。

畢竟，并非所有人都能承擔(dān)起如此高昂費用和制作復(fù)雜度，以手語數(shù)字人為例，需求很大一部分來自于學(xué)校、公益機(jī)構(gòu)等。

而在這些現(xiàn)象背后，其實還隱藏著數(shù)字人在制作、應(yīng)用落地方面的一連串難題。

大廠競速，降低數(shù)字人落地門檻

想要探尋數(shù)字人的落地瓶頸，還需從它的生產(chǎn)制作流程看起。

制作數(shù)字人的流程，可以分為建模、驅(qū)動和渲染三個階段。

建模即搭起數(shù)字人的“基礎(chǔ)骨架模型”，驅(qū)動負(fù)責(zé)讓模型“動起來像人”，渲染則負(fù)責(zé)讓模型“看起來像人”。

聽起來不難，但在傳統(tǒng)的數(shù)字人制作流程中，每一階段都面臨操作繁雜、算法門檻高、開發(fā)周期長的問題，成本更是大型企業(yè)才負(fù)擔(dān)得起。

極高的制作門檻，和數(shù)字人主打的“服務(wù)場景”卻并不匹配。

像銀行、政務(wù)服務(wù)、直播間、景點導(dǎo)覽、學(xué)校等需求方，往往不具備獨立開發(fā)制作數(shù)字人的技術(shù)能力，能承受的制作成本更是相對有限。

這種情況下，不少科技廠商如華為競相涉足數(shù)字人領(lǐng)域的研發(fā)，力圖降低每個制作階段的技術(shù)門檻。

在建模上，傳統(tǒng)方式往往要利用多方位攝像頭，對模特們打點掃描，采集說話時唇部、表情、面部肌肉、肢體細(xì)節(jié)和姿態(tài)等身體數(shù)據(jù)，隨后按照需求設(shè)計建模，如卡通風(fēng)、超寫實風(fēng)格等。

BUT，這背后需要的工作量非常大，而且需要專業(yè)人員操作。

相比之下，目前已經(jīng)有更多AI算法來降低3D建模門檻，也適配不同的數(shù)字人風(fēng)格。

在本次HDC上，華為就展示了一套高效的3D卡通數(shù)字人建模服務(wù)，能夠幫助開發(fā)者快速構(gòu)建自定義的3D卡通數(shù)字人資產(chǎn)?；跇I(yè)界前沿的全屬性特征識別和多模態(tài)基模融合兩大核心技術(shù)，只需要1張照片，AI算法1秒鐘就能生成一個活靈活現(xiàn)的卡通風(fēng)格數(shù)字人，甚至連身體都能建模好。

全屬性特征識別技術(shù)能夠?qū)Πl(fā)型、眼形、眉形、胡子和眼鏡等面部主要屬性迅速而精準(zhǔn)地識別，每個部分又可細(xì)化到常見的特征，如單雙眼皮、卷直發(fā)等，實現(xiàn)美與像的平衡。

值得一提的是，這樣的神經(jīng)網(wǎng)絡(luò)模型非常輕量，大小僅在KB級別（不到1MB），推理時間更是達(dá)到毫秒級，大部分情況下識別準(zhǔn)確率超90%；

而如何在毫秒級時間內(nèi)，僅憑一張照片就“拼”出最合適的卡通化人臉，同時換上最合適的風(fēng)格，則是多模態(tài)基模融合技術(shù)的能力。

依托大量基礎(chǔ)幾何（1k+）和形狀素材（100+），配合百萬級的AI訓(xùn)練數(shù)據(jù)，高效建模得以輕松實現(xiàn)。

△卡通化程度和風(fēng)格可自定義調(diào)節(jié)與轉(zhuǎn)換

通過3D卡通數(shù)字人建模服務(wù)和HMS Core手語服務(wù)的配合——無論是熱情活潑的手語老師，還是端莊親和的手語直播主持人，都能快速搞定。

建模完成后就是驅(qū)動和渲染了，讓模型不僅能像人一樣表情自然、肢體動作流暢，還能具備一定語言理解表達(dá)能力。

傳統(tǒng)平臺雖然有動作庫、降低人工制作難度，但最復(fù)雜的往往是兩個動作之間的過渡、以及將語音文本和表情逐幀對應(yīng)的過程。

目前有大廠已經(jīng)試圖在用算法搞定動作過渡，至于語音文本和表情對應(yīng)則可以用AI算法來降低工作量。

此次HDC，華為正式發(fā)布的HMS Core 3D Engine，不僅能進(jìn)行超大規(guī)模數(shù)字世界的實時渲染，對于數(shù)字人的驅(qū)動也專門提供了一套能搞定實時骨骼動畫、表情動畫、腳步/全身IK、布娃娃系統(tǒng)、動畫重定向、多重動畫融合的“工具包”。

3D Engine的動畫編輯器不僅支持創(chuàng)建多個動作狀態(tài)機(jī)，而且還能對多個角色的動作進(jìn)行平滑過渡，解決數(shù)字人動作之間“不流暢”的問

除了單純的動作驅(qū)動，讓數(shù)字人具備理解表達(dá)能力，同樣是決定驅(qū)動真實性的一環(huán)。

HMS Core的手語服務(wù)，用AI算法給數(shù)字人打開了“手語表達(dá)與理解”能力。

基于大量深度學(xué)習(xí)算法，讓模型學(xué)習(xí)語音、唇形、表情參數(shù)間的潛在映射關(guān)系，手語服務(wù)通過HMS Core 3D Engine驅(qū)動模型在接收到輸入信號時，自動做出對應(yīng)的動作。

建模和驅(qū)動之后，就來到最終的渲染部分。

傳統(tǒng)方法往往計算量極高，更別提直播場景中常見的實時渲染。

尤其是寫實數(shù)字人，為避免高時延，實時渲染往往選擇犧牲數(shù)字人的真實感，包括皮膚、頭發(fā)和眼睛等部位，想要打造真實感難度非常高，最后往往只能采用3D卡通數(shù)字人來完成實時直播。

在這種背景下，HMS Core的3D Engine在實現(xiàn)在實時渲染的同時，還盡可能還原寫實數(shù)字人真實的效果。利用3D Engine呈現(xiàn)出來的數(shù)字人，不僅能與場景進(jìn)行實時交互，在皮膚材質(zhì)、發(fā)絲仿真、眼球材質(zhì)等渲染上也足夠細(xì)致，這些細(xì)節(jié)直接影響了數(shù)字人的逼真程度。

皮膚材質(zhì)上通過次表面反射、雙葉高光對皮膚的光澤度和通透感實現(xiàn)了增強(qiáng)，呈現(xiàn)出了更自然的皮膚效果。

在發(fā)絲上，則是通過實時物理模擬完成10萬+發(fā)絲運動，來增強(qiáng)頭發(fā)的陰影、半透明和高光渲染效果。

眼球還原上甚至精確到了虹膜、瞳孔、鞏膜、晶狀體折射率等，根據(jù)參數(shù)進(jìn)行調(diào)整。

整體來說，相較于傳統(tǒng)數(shù)字人制作流程，從降低門檻、提高易用性等維度出發(fā)， HMS Core提出了一個更為簡易的數(shù)字人全流程解決方案。

背后技術(shù)能力并不簡單

其實，面臨數(shù)字人落地的難題和機(jī)遇，國內(nèi)外不少公司都在投入這一賽道角逐。

這其中既包括蘋果、Meta和英偉達(dá)等科技巨頭，也有Neon和DATAGRID等初創(chuàng)公司，憑借自身軟硬件優(yōu)勢“擴(kuò)張”在數(shù)字人行業(yè)的版圖。

在賽道玩家云集的情況下，華為降低用“人”成本的底氣何在？

一方面，在AI等技術(shù)上，華為這些年也在不斷地進(jìn)行研究和積累。

據(jù)華為介紹，在NeurIPS近五年來引用最多的50篇論文、以及ACL近五年來應(yīng)用最高的20篇論文中，都各自有一篇華為諾亞方舟實驗室的論文，同時ACL引用最高的30篇論文中，更是有3篇相關(guān)論文。

華為輪值董事長徐直軍，此前也透露過華為的AI研發(fā)數(shù)據(jù)：僅2018一年，華為的AI研發(fā)投入就達(dá)到15億美元，研發(fā)團(tuán)隊更是超過5000人。

具體到內(nèi)容上，這些論文中就有不少像多模態(tài)技術(shù)這類與數(shù)字人息息相關(guān)的研究。

被ACM Multimedia 2022收錄的一篇新論文中，華為泊松實驗室就聯(lián)合人大高瓴人工智能學(xué)院提出了一種名叫MMTG的新模型，意圖讓AI看到圖文混雜的輸入時能理解它們的關(guān)聯(lián)，并創(chuàng)作出新的文本，進(jìn)一步提升數(shù)字人的表達(dá)能力。