加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

繪聲繪色:NVIDIA在Interspeech大會上分享情感語音合成研究成果

2021/09/01
207
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

開發(fā)者和創(chuàng)作者可以使用最先進(jìn)的對話式AI模型進(jìn)行情感語音合成,為角色、虛擬助手和個性化形象生成聲音。

AI已將合成語音從單調(diào)的機(jī)器人呼叫和傳統(tǒng)GPS導(dǎo)航系統(tǒng)轉(zhuǎn)變成智能手機(jī)和智能音箱中動聽的虛擬助手。

但AI合成語音與我們在日常對話和媒體中聽到的人類語音之間仍有差距。這是因為人在說話時會有復(fù)雜的節(jié)奏、音調(diào)和音色,而AI很難在這些方面進(jìn)行模仿。

但這一差距正在迅速縮小。NVIDIA研究人員正在創(chuàng)建高質(zhì)量、可控制的語音合成模型和工具,這些模型和工具能夠捕捉人類語音的豐富性,并且不會出現(xiàn)音頻雜音。

NVIDIA研究人員目前正在INTERSPEECH 2021大會上展示他們的最新項目。本屆大會將持續(xù)到9月3日。

這些模型有助于為銀行和零售商的自動客戶服務(wù)熱線配音、使視頻游戲和書籍中的人物變得栩栩如生,并為數(shù)字化身提供實時語音合成。

NVIDIA的內(nèi)部創(chuàng)意團(tuán)隊甚至使用該技術(shù)為一個關(guān)于AI力量的系列視頻制作了動人的解說。

情感語音合成只是NVIDIA 研究院在對話式AI領(lǐng)域的重點工作之一。該領(lǐng)域還包括自然語言處理、自動語音識別、關(guān)鍵詞檢測、音頻增強(qiáng)等。

這些前沿工作經(jīng)過優(yōu)化后可以在NVIDIA GPU上高效運行,其中的一些工作已經(jīng)通過NVIDIA NeMo工具包開放源代碼,可在NVIDIA NGC 容器和其他軟件中心獲得。

I AM AI幕后花絮
NVIDIA研究人員和專業(yè)創(chuàng)作人員并不是在針對對話式AI進(jìn)行紙上談兵。他們通過身體力行,將突破性的語音合成模型應(yīng)用于I AM AI系列視頻中。該系列視頻介紹了重塑各個行業(yè)的全球 AI 創(chuàng)新者。

不久之前,這些視頻還都是由人類配音的。以前的語音合成模型對合成聲音節(jié)奏和音調(diào)的控制十分有限,因此AI配音無法喚起觀眾的情感反應(yīng),只有富有感情的人類聲音才能做到這一點。

在過去的一年中,NVIDIA文本-語音研究團(tuán)隊開發(fā)出更強(qiáng)大、更可控的語音合成模型(如RAD-TTS),使得上述情況發(fā)生了變化。NVIDIA在SIGGRAPH Real-Time Live比賽中的獲獎演示就采用了這個模型。通過使用人類語音音頻來訓(xùn)練文本-語音模型,RAD-TTS可以將任何文本轉(zhuǎn)換成說話人的聲音。

該模型的另一項功能是語音轉(zhuǎn)換,即使用一名說話人的聲音講述另一名說話人的話語(甚至歌唱)。RAD-TTS界面的靈感來自于將人的聲音作為一種樂器這一創(chuàng)意。用戶可以使用它對合成聲音的音調(diào)、持續(xù)時間和強(qiáng)度進(jìn)行精細(xì)的幀級控制。

通過這個接口,視頻制作者可以在錄制中自行閱讀視頻文本,然后使用AI模型將他作為男敘述者的語音轉(zhuǎn)換成女?dāng)⑹稣叩穆曇簟V谱髡呖梢允褂眠@個基準(zhǔn)敘述,像指導(dǎo)配音演員一樣指示AI,比如通過調(diào)整合成語音來強(qiáng)調(diào)特定的詞語、修改敘述節(jié)奏以更好地表達(dá)視頻中的語氣 等。

該AI模型的能力已超出了配音工作的范圍:文本-語音轉(zhuǎn)換可以用于游戲、為有聲音障礙的人提供幫助、或幫助用戶用自己的聲音進(jìn)行不同語言的敘述。它甚至可以重現(xiàn)標(biāo)志性歌手的表演,不僅能夠匹配歌曲的旋律,還能匹配人聲背后的情感表達(dá)。

?
為AI開發(fā)者和研究者提供強(qiáng)大的語音功能
NVIDIA NeMo是一款用于GPU加速對話式AI的開源Python工具包。研究者、開發(fā)者和創(chuàng)作者通過使用該工具包,能夠在自己的應(yīng)用實驗和和微調(diào)語音模型方面取得先機(jī)。

NeMo中易于使用的API和預(yù)訓(xùn)練模型能夠幫助研究人員開發(fā)和自定義用于文本-語音轉(zhuǎn)換、自然語言處理和實時自動語音識別的模型。其中幾個模型是在NVIDIA DGX 系統(tǒng)上使用數(shù)萬小時的音頻數(shù)據(jù)訓(xùn)練而成。開發(fā)者可以根據(jù)自己的使用情況對任何模型進(jìn)行微調(diào),運用NVIDIA Tensor Core GPU上的混合精度計算加快訓(xùn)練速度。

NVIDIA NeMo還通過NGC提供在Mozilla Common Voice上訓(xùn)練的模型,該數(shù)據(jù)集擁有76種語言、近14000小時的眾包語音數(shù)據(jù)。該項目的目標(biāo)是在NVIDIA的支持下,通過全球最大的開源數(shù)據(jù)語音數(shù)據(jù)集實現(xiàn)語音技術(shù)的普及化。

語音技術(shù)的盛宴:NVIDIA研究人員展示AI語音技術(shù)的最新進(jìn)展
INTERSPEECH匯聚了1000多名研究人員,他們展示了語音技術(shù)方面的突破性進(jìn)展。在本周的會議上,NVIDIA研究院將展示對話式AI模型架構(gòu)以及供開發(fā)者使用的完全格式化語音數(shù)據(jù)集。

請關(guān)注以下由NVIDIA 嘉賓帶來的相關(guān)演講:

  • 兼容任何場景的多麥克風(fēng)語音去混響 — ?8月31日(周二)
  • SPGISpeech:用于完全格式化端到端語音識別的5000小時轉(zhuǎn)錄金融音頻 — ?9月1日(周三)
  • Hi-Fi多講話者英語TTS數(shù)據(jù)集 — 9月1日(周三)
  • TalkNet 2:用于語音合成(具有明確音高和持續(xù)時間預(yù)測)的非自回歸深度可分離卷積模型 — 9月2日(周四)
  • 使用稀疏隨機(jī)三元矩陣壓縮一維時間通道可分離卷積 — 9月3日(周五)
  • NeMo逆向文本正則化:從開發(fā)到生產(chǎn) — 9月3日(周五)

?
可在NGC目錄中搜索NeMo模型并收聽NVIDIA研究人員在 INTERSPEECH大會上的講座。

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜