加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 01.破圈而來,“完美”虛擬人離不開的多模態(tài)
    • 02.優(yōu)質(zhì)算法“殺手锏”高質(zhì)量數(shù)據(jù)背后的技術(shù)試煉
    • 03.為更強(qiáng)智能輸送燃料,多模態(tài)數(shù)據(jù)強(qiáng)勢(shì)崛起
    • 04.結(jié)語:多模態(tài)終將主導(dǎo)智能產(chǎn)業(yè)未來
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

多模態(tài)時(shí)代來了,AI虛擬數(shù)字人,掀起百億數(shù)據(jù)服務(wù)新藍(lán)海

2022/01/25
235
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

虛擬數(shù)字人更像人的黑科技,背后功臣竟然是它?!

寫在前面:元宇宙、虛擬數(shù)字人概念火爆的2021,高質(zhì)量訓(xùn)練數(shù)據(jù)資源正成為雄心勃勃的AI企業(yè)們解鎖更強(qiáng)智能的關(guān)鍵燃料,通過對(duì)話國內(nèi)唯一A股上市數(shù)據(jù)服務(wù)商海天瑞聲,我們?cè)噲D探討隱藏于這場(chǎng)新興技術(shù)浪潮幕后的基石角色,如何運(yùn)用技術(shù)解決智能化升級(jí)過程中的核心痛點(diǎn)。

2022年,再不關(guān)注虛擬數(shù)字人,你就落伍啦!在剛剛過去的一年,AI虛擬主播、虛擬學(xué)生、虛擬員工輪番上崗,成為元宇宙與人工智能兩大領(lǐng)域最熱門的技術(shù)賽道之一。

▲萬科首位數(shù)字化員工崔筱盼獲得萬科總部最佳新人獎(jiǎng)

 

有些虛擬數(shù)字人已經(jīng)表現(xiàn)得靈性十足,不僅發(fā)音標(biāo)準(zhǔn)自然、身體動(dòng)作流暢,就連眨眼頻率、口型與聲音的匹配等細(xì)節(jié)都惟妙惟肖。這些火遍大江南北的特殊生命體,通過越來越多元的形象定制、舒適的交互體驗(yàn),逐漸轉(zhuǎn)變?yōu)閾碛懈咏鎸?shí)人類智商和情感的新型社會(huì)角色。而「多模態(tài)技術(shù)」,正是打破單一感官的藩籬,讓AI虛擬形象越來越像人類的秘密武器。

01.破圈而來,“完美”虛擬人離不開的多模態(tài)

數(shù)據(jù),是將真實(shí)世界與虛擬世界連接的橋梁。在現(xiàn)實(shí)世界中,數(shù)據(jù)天然以「多模態(tài)」的形式存在,人類通過綜合運(yùn)用視覺、聽覺、觸覺、嗅覺等多種感官,來接觸和理解大千世界。為了探索實(shí)現(xiàn)通用人工智能(AGI)的路徑,人工智能(AI)從單模態(tài)走向多模態(tài)已是大勢(shì)所趨。

以前,Siri等語音助手只有聲音沒有臉,搜索只能依靠輸入文字,機(jī)器看不懂照片的深層含義。如今,借助多模態(tài)技術(shù),AI實(shí)現(xiàn)了圖像、視頻、音頻、語義文本等多維度資源的融合互補(bǔ),不僅決策更加精準(zhǔn),還在行為和智商上更接近人類。新冠疫情亦催化了多模態(tài)技術(shù)的落地進(jìn)程。

在隱私安全保護(hù)重視程度日益加強(qiáng)的趨勢(shì)下,多模態(tài)生物識(shí)別憑借更高的準(zhǔn)確率和安全性,正取代基于指紋、人臉等單一生物特征的身份識(shí)別方法。而深藏多種黑科技的AI虛擬主播,亦是基于多模態(tài)技術(shù)的快速演進(jìn),成為感知智能邁向認(rèn)知智能階段的重要探索。它們的精致面容、流暢表達(dá)、優(yōu)美體態(tài),離不開微表情追蹤、語音識(shí)別、語音合成、自然語言理解、動(dòng)作捕捉等豐富技術(shù)的支撐。

▲虛擬數(shù)字人技術(shù)架構(gòu)(來源:《2020年虛擬數(shù)字人發(fā)展白皮書》)

 

其中,AI手語主播要解決的技術(shù)難點(diǎn)尤其復(fù)雜。為了照顧到聽障人士的需求,它需要具備實(shí)時(shí)將中文、英文等語音“翻譯”成連貫手語的能力。但手語有一套獨(dú)特的語法體系,如果來一段央視押韻狂魔朱廣權(quán)的段子“冷空氣非常強(qiáng),但他強(qiáng)任他強(qiáng),清風(fēng)拂山崗,他橫任他橫,秋褲保健康”,那就極度考驗(yàn)AI手語主播的理解和翻譯水準(zhǔn)了。

要做到實(shí)時(shí)精確演示手語,AI主播需先將語音轉(zhuǎn)化成文字,再將健聽人士的文本語序轉(zhuǎn)化成手語語序,最后基于手語數(shù)據(jù)集進(jìn)行手語合成,將相同的信息以視覺的形式傳遞給聽障人士。

在此過程中,獲得符合需求的訓(xùn)練數(shù)據(jù)成為了最具挑戰(zhàn)性的問題之一。這是因?yàn)?,作為一種視覺語言,手語語言遠(yuǎn)比語音語言模態(tài)復(fù)雜,既包含手型、手部位置等手控信息,又包含表情、口動(dòng)、體態(tài)等非手控信息。如果從2D視頻來采集手語運(yùn)動(dòng)過程中的數(shù)據(jù),則不可避免會(huì)遇到動(dòng)作被遮擋、人臉五官各區(qū)域區(qū)分不明顯、空間深度信息缺失等問題。

▲央視冬奧AI手語主播

 

綜合看來,通過專業(yè)設(shè)備采集的3D多模態(tài)數(shù)據(jù),已經(jīng)成為優(yōu)化特定垂直場(chǎng)景AI虛擬數(shù)字人的智能化水平中,為數(shù)不多的解決方案之一。怎樣獲得高品質(zhì)的多模態(tài)訓(xùn)練數(shù)據(jù)庫?AI基礎(chǔ)數(shù)據(jù)服務(wù)商的商業(yè)價(jià)值開始日益凸顯。

02.優(yōu)質(zhì)算法“殺手锏”高質(zhì)量數(shù)據(jù)背后的技術(shù)試煉

數(shù)據(jù)、算法、算力被并稱為「AI三要素」,數(shù)據(jù)質(zhì)量的高低,往往決定AI算法模型的性能上限。隨著AI應(yīng)用逐漸普及,位于基礎(chǔ)設(shè)施層的AI數(shù)據(jù)服務(wù)行業(yè)正發(fā)展地風(fēng)生水起。根據(jù)知名市研機(jī)構(gòu)IDC報(bào)告,到2025年,中國AI數(shù)據(jù)采標(biāo)服務(wù)市場(chǎng)規(guī)模預(yù)計(jì)將增至123.4億元。

▲2020-2025年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模預(yù)測(cè)(來源:IDC中國)

 

但如果你認(rèn)為AI基礎(chǔ)數(shù)據(jù)服務(wù)是個(gè)純?nèi)斯ぷ鞣?,那你就太小瞧這個(gè)行業(yè)的技術(shù)含量了。尤其是多模態(tài)技術(shù)爆發(fā)以來,相應(yīng)的對(duì)多模態(tài)數(shù)據(jù)需求的增長(zhǎng),逐步暴露了“作坊式”數(shù)據(jù)采標(biāo)團(tuán)隊(duì)“人海”戰(zhàn)術(shù)的短板,整個(gè)數(shù)據(jù)市場(chǎng)正向滿足客戶長(zhǎng)尾需求演進(jìn),對(duì)服務(wù)商技術(shù)屬性的要求一再加碼。

如何制定與算法匹配的數(shù)據(jù)方案?如何同步采集不同模態(tài)的數(shù)據(jù)?如何處理丟失的數(shù)據(jù)?如何保證不同模態(tài)數(shù)據(jù)的精準(zhǔn)對(duì)齊?這些都極度考驗(yàn)AI數(shù)據(jù)服務(wù)商的技術(shù)能力。

以獲評(píng)國家工信部新一代人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜優(yōu)勝單位、國家專精特新“小巨人”企業(yè)、國家重點(diǎn)軟件企業(yè)的海天瑞聲為例,這家企業(yè)在中國AI基礎(chǔ)數(shù)據(jù)采標(biāo)服務(wù)市場(chǎng)中排名前列,也是A股唯一的AI數(shù)據(jù)服務(wù)上市公司,其多模態(tài)訓(xùn)練數(shù)據(jù)解決方案最近獲得了智東西2021年度AI生產(chǎn)力創(chuàng)新獎(jiǎng)。

根據(jù)其IPO文件,AI數(shù)據(jù)服務(wù)的核心技術(shù)可分為三個(gè)層次:訓(xùn)練數(shù)據(jù)生產(chǎn)(包括設(shè)計(jì)、采集、加工、質(zhì)檢),平臺(tái)工具(一體化數(shù)據(jù)處理平臺(tái))以及基礎(chǔ)研究(語音識(shí)別、語音合成、計(jì)算機(jī)視覺、訓(xùn)練數(shù)據(jù)集設(shè)計(jì)技術(shù)等)。

其中,在訓(xùn)練數(shù)據(jù)生產(chǎn)層,多語種多模態(tài)訓(xùn)練數(shù)據(jù)設(shè)計(jì)技術(shù)、采集及標(biāo)注技術(shù)是高質(zhì)量訓(xùn)練數(shù)據(jù)的生產(chǎn)基礎(chǔ)。首先在設(shè)計(jì)階段,為了滿足AI算法的需求,AI數(shù)據(jù)服務(wù)商需深入理解客戶算法和應(yīng)用場(chǎng)景,設(shè)計(jì)與之最優(yōu)匹配的多模態(tài)訓(xùn)練數(shù)據(jù)結(jié)構(gòu),并制定合理的原料數(shù)據(jù)采集方案。

通過設(shè)計(jì)多設(shè)備采集方案,以便同時(shí)獲取人發(fā)出的語音、視頻畫面、精細(xì)唇部動(dòng)作等不同模態(tài)的信息,便于客戶匹配自身算法模型框架,實(shí)現(xiàn)視覺、聽覺等融合的多維度交互。整個(gè)過程非??简?yàn)AI數(shù)據(jù)服務(wù)商的技術(shù)儲(chǔ)備和工程能力。

其次,在實(shí)際的采集環(huán)節(jié)中,數(shù)據(jù)損耗是常事,且造成損耗的原因迥異,而有經(jīng)驗(yàn)的AI數(shù)據(jù)服務(wù)商能用技術(shù)快速找出解法。

我們繼續(xù)以AI手語合成主播為例,采集手語數(shù)據(jù)會(huì)用到裝有傳感器的手套,這些手套由于并非專為手語而設(shè)計(jì),因此在采集過程中難免會(huì)出現(xiàn)數(shù)據(jù)丟失的問題,一個(gè)動(dòng)作很可能要做上百幀的數(shù)據(jù)修復(fù),耗時(shí)耗力。

發(fā)現(xiàn)這一問題后,海天瑞聲技術(shù)研發(fā)團(tuán)隊(duì)迅速啟動(dòng)應(yīng)對(duì)方案,歷經(jīng)半個(gè)月研發(fā)出一款與硬件采集設(shè)備相匹配的自動(dòng)導(dǎo)出、修復(fù)工具,極大提升了數(shù)據(jù)的處理效率。修復(fù)好數(shù)據(jù),還要應(yīng)對(duì)「精細(xì)對(duì)齊」的挑戰(zhàn)。在虛擬數(shù)字人、智能座艙等場(chǎng)景中,越來越多應(yīng)用開始將語音識(shí)別和計(jì)算機(jī)視覺結(jié)合,以提高理解人類意圖的準(zhǔn)確率。

像這樣需用多個(gè)攝像頭、傳感器等設(shè)備來采集數(shù)據(jù)的應(yīng)用,又帶來新的難題——如何將不同設(shè)備記錄的影像、聲音等數(shù)據(jù),實(shí)現(xiàn)同步標(biāo)注對(duì)齊?

▲不同通道錄制的語音數(shù)據(jù)不對(duì)齊情況示例

 

大規(guī)模標(biāo)注數(shù)據(jù)本來就是AI模型進(jìn)一步優(yōu)化性能的瓶頸,而多模態(tài)數(shù)據(jù)不僅標(biāo)注工作量是單模態(tài)的數(shù)倍,還要解決多設(shè)備采集數(shù)據(jù)同步難的問題,這會(huì)進(jìn)一步增加后續(xù)數(shù)據(jù)加工難度。

對(duì)此,海天瑞聲的解決思路是自研多通道采集工具和數(shù)據(jù)同步技術(shù),多通道采集工具支持4路甚至更多語音數(shù)據(jù)同時(shí)錄入、自動(dòng)對(duì)齊整合,數(shù)據(jù)同步技術(shù)可實(shí)現(xiàn)多通道采集原料數(shù)據(jù)的自動(dòng)對(duì)齊,并做到多音頻文件起始點(diǎn)自動(dòng)對(duì)齊誤差小于1毫秒,大幅提升訓(xùn)練數(shù)據(jù)生產(chǎn)效率和質(zhì)量。借助數(shù)據(jù)同步技術(shù),唇形動(dòng)作與聲音的對(duì)齊能精確到毫秒級(jí),這也是可以避免虛擬數(shù)字人說話時(shí)音畫不同步、對(duì)不上口型等尷尬局面背后的重要因素之一。

03.為更強(qiáng)智能輸送燃料,多模態(tài)數(shù)據(jù)強(qiáng)勢(shì)崛起

哪個(gè)AI應(yīng)用不想實(shí)現(xiàn)更高的準(zhǔn)確率、更自然貼心的交互能力呢?在更強(qiáng)智能需求的拉動(dòng)下,基于多模態(tài)數(shù)據(jù)的AI算法模型日漸成為主流。

微軟多模態(tài)預(yù)訓(xùn)練模型「女媧」可根據(jù)文本內(nèi)容生成相應(yīng)視頻

 

例如公安、金融等場(chǎng)景的身份鑒定,電商場(chǎng)景下的智能客服交互,未來自動(dòng)駕駛場(chǎng)景的艙內(nèi)艙外交互等等,數(shù)據(jù)準(zhǔn)確率越高,有助于抵御越多的安全風(fēng)險(xiǎn)。而多模態(tài)生物識(shí)別不僅有助于保護(hù)信息安全,還能應(yīng)對(duì)單一模態(tài)無法有效識(shí)別的戴口罩、手指磨繭、整容等特殊情況。

▲單一生物識(shí)別技術(shù)的特點(diǎn)(來源:零壹智庫、東方財(cái)富證券研究所)

 

可以看到,如今AI垂直應(yīng)用場(chǎng)景呈現(xiàn)碎片化特征,對(duì)多模態(tài)數(shù)據(jù)的需求更加復(fù)雜和長(zhǎng)尾化。這些新業(yè)務(wù)場(chǎng)景需求的變化,更為考驗(yàn)AI數(shù)據(jù)服務(wù)商處理復(fù)雜交叉業(yè)務(wù)場(chǎng)景數(shù)據(jù)的綜合能力。因此AI數(shù)據(jù)服務(wù)商必須具備與客戶算法團(tuán)隊(duì)平行溝通的技術(shù)儲(chǔ)備,理解客戶希望用數(shù)據(jù)解決什么問題、設(shè)計(jì)什么結(jié)構(gòu)的模型,才能用最小代價(jià),給出高效高質(zhì)的數(shù)據(jù)集解決方案,保證客戶算法取得盡可能好的落地效果。

在這樣的趨勢(shì)下,海天瑞聲等頭部品牌數(shù)據(jù)服務(wù)商的資源優(yōu)勢(shì)將被進(jìn)一步放大。從海天瑞聲的IPO文件可以看到,這家公司已經(jīng)積累了近千個(gè)自有知識(shí)產(chǎn)權(quán)的訓(xùn)練數(shù)據(jù)產(chǎn)品、服務(wù)微軟、阿里巴巴騰訊、百度、三星、字節(jié)跳動(dòng)、亞馬遜、科大訊飛、商湯科技、中國科學(xué)院、清華大學(xué)等超過500家國內(nèi)外客戶,并持有信息安全認(rèn)證證書ISO/IEC 27701及管理體系認(rèn)證證書ISO/IEC 27001。

▲2018-2020年海天瑞聲前五大客戶情況(根據(jù)IPO文件整理)

 

過去三年,海天瑞聲的前五大客戶呈現(xiàn)高復(fù)購率,足見其產(chǎn)品的高粘性。無論是知名科技公司的背書,還是經(jīng)年累月沉淀的多語種語言學(xué)家團(tuán)隊(duì)資源和穩(wěn)定合作的供應(yīng)商、客戶等上下游資源,都使得兼具技術(shù)壁壘與業(yè)務(wù)經(jīng)驗(yàn)的品牌數(shù)據(jù)服務(wù)商,更易成為確保多模態(tài)數(shù)據(jù)高效高質(zhì)交付的首選。

04.結(jié)語:多模態(tài)終將主導(dǎo)智能產(chǎn)業(yè)未來

AI算法要想高質(zhì)量,多模態(tài)數(shù)據(jù)得跟得上。過去一年,應(yīng)用場(chǎng)景的創(chuàng)新和機(jī)器學(xué)習(xí)算法的流行繼續(xù)帶動(dòng)訓(xùn)練數(shù)據(jù)需求爆發(fā)式增長(zhǎng)。在多模態(tài)大模型、虛擬數(shù)字人等熱門技術(shù)方向的驅(qū)動(dòng)下,持續(xù)探索更強(qiáng)智能的AI應(yīng)用,對(duì)高質(zhì)量多模態(tài)訓(xùn)練數(shù)據(jù)資產(chǎn)的需求愈發(fā)迫切。

當(dāng)前多模態(tài)技術(shù)仍處于起步階段,多維度信息的轉(zhuǎn)化和融合尚不成熟,在真實(shí)場(chǎng)景下的泛化能力較為受限,距離實(shí)現(xiàn)人類級(jí)別的多模態(tài)感知能力還有較長(zhǎng)的路要走。這需要研發(fā)多模態(tài)AI應(yīng)用的企業(yè)或研究機(jī)構(gòu)與AI基礎(chǔ)數(shù)據(jù)服務(wù)商長(zhǎng)期磨合,摸索出更加符合人類認(rèn)知習(xí)慣的前沿多模態(tài)技術(shù),幫助AI全面理解真實(shí)世界,最終更好地服務(wù)于未來的人類社會(huì)。

作者 |  心緣

編輯 |  漠影

相關(guān)推薦

電子產(chǎn)業(yè)圖譜