加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

NVIDIA利用AI強(qiáng)化機(jī)器合成語音擬真感

2021/09/17
173
閱讀需 4 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

過去自動電話語音和 GPS 導(dǎo)航系統(tǒng)都只能發(fā)出生硬的機(jī)器合成聲音,人工智慧(AI)可以協(xié)助讓智慧型手機(jī)和智慧音箱中的虛擬助理呈現(xiàn)逼真的語調(diào)。不過,AI合成的聲音和人們在日常對話及媒體中聽到的真實(shí)人聲之間,還是差了一點(diǎn),原因在于人們說話時帶有複雜的節(jié)奏、音調(diào)和音色,這是很難以 AI 仿真出來的。有鑒于此,NVIDIA的研究人員正在打造高品質(zhì)、可控制的語音合成模型與工具,它們能捕捉人類口語中的豐富細(xì)節(jié),又不會聽起來人工感很重。

NVIDIA透過AI強(qiáng)化機(jī)器語音的擬針感

這些模型有助銀行和零售商的自動語音客服,也能讓電玩游戲或書籍中的人物更為生動,并即時為數(shù)位分身加上合成語音。NVIDIA內(nèi)部的創(chuàng)意團(tuán)隊(duì)甚至運(yùn)用這項(xiàng)技術(shù),為一支介紹AI的系列影片制作出富有表現(xiàn)力的旁白內(nèi)容。

表達(dá)性語言合成只是 NVIDIA Research 團(tuán)隊(duì)在對話式 AI 的其中一項(xiàng)研究,此領(lǐng)域還包括自然語言處理、自動語音辨識、關(guān)鍵字偵測、音訊增強(qiáng)等。這項(xiàng)研究成果的部分內(nèi)容已透過NVIDIA NeMo工具套件成為開放原始碼,可以在NGC容器及其它軟體中心取得,并經(jīng)最佳化調(diào)整,能在NVIDIA GPU上高效執(zhí)行。

另外,NVIDIA的研究人員與創(chuàng)意專家將對話式AI導(dǎo)入該公司的《I AM AI》系列影片中,實(shí)際運(yùn)用語音合成模型,介紹重塑各產(chǎn)業(yè)發(fā)展的全球AI創(chuàng)新者。過去的語音合成模型對于合成聲音的節(jié)奏和音調(diào)控制能力有限,因此和真人旁白的影片相比,嘗試以AI制作影片旁白無法激起觀眾的情感。

隨著NVIDIA的文字轉(zhuǎn)語音研究團(tuán)隊(duì)發(fā)展出更強(qiáng)大、控制能力更強(qiáng)的語音合成模型,透過RAD-TTS,使用個人說話的聲音來訓(xùn)練文字轉(zhuǎn)語音模型,可以將任何文字提示變成說話者的聲音。聲音轉(zhuǎn)換是它的另一項(xiàng)功能,例如畫面上是A在說話(甚至是唱歌),觀眾們聽到的卻是B的聲音。設(shè)計(jì)RAD-TTS介面的靈感來源是將人的聲音當(dāng)成一種樂器,使用者便能夠逐幀微調(diào)合成聲音的音調(diào)、持續(xù)時間和能量。

影片制作人可以使用這個介面,錄制自己讀出影片腳本的聲音,接著用 AI 模型將說話內(nèi)容變成女性旁白者的聲音。制作人可以再運(yùn)用這個基本的旁白內(nèi)容,像配音員一樣指導(dǎo)AI并進(jìn)行調(diào)整,讓合成出來的語音強(qiáng)調(diào)特定字眼、修改旁白節(jié)奏,以更貼切地表達(dá)影片的調(diào)性。

該AI模型不只能用在配音上:文字轉(zhuǎn)語音的功能還能用在游戲、協(xié)助聲音機(jī)能或語言機(jī)能障礙者,或幫助使用者用自己的聲音翻譯不同語言;甚至還能重現(xiàn)著名歌手的表演,不僅可以配合歌曲旋律,還能配合人聲背后所表達(dá)的情感。

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

新電子科技雜志于1986年創(chuàng)刊,以中國臺灣信息電子上下游產(chǎn)業(yè)的訊息橋梁自居,提供國際與國內(nèi)電子產(chǎn)業(yè)重點(diǎn)信息,以利產(chǎn)業(yè)界人士掌握自有競爭力。?內(nèi)容編輯方面,徹底執(zhí)行各專欄內(nèi)容質(zhì)量,透過讀者回函了解讀者意見,調(diào)整方向以專業(yè)豐富的內(nèi)容建立特色;定期舉辦研討會、座談會、透過產(chǎn)業(yè)廠商的參與度,樹立專業(yè)形象;透過因特網(wǎng)豐富信息的提供,信息擴(kuò)及華人世界。