?
蘋果最近的秋季發(fā)布會(huì)主要圍繞著 iPhone X,更換 Touch ID 的人臉識(shí)別,OLED 顯示屏以及支持蜂窩網(wǎng)絡(luò)的 Apple Watch。但是,生活在波蘭、立陶宛、斯洛伐克、捷克共和國(guó)以及世界上許多其他地方的人們,并沒有注意以上那些“閃光點(diǎn)”,而是發(fā)現(xiàn)另外一件事情。
Siri 沒有學(xué)習(xí)新的語言,這可是件大事。
觸摸屏作為智能手機(jī)的界面工作得很出色,但是對(duì)于智能手表的微型顯示器來說,它就成了一個(gè)麻煩。蘋果計(jì)劃在今年年底前推出的智能音箱根本就不會(huì)有屏幕。Siri 和其他虛擬助手,如 Google Assistant、Cortana 或 Bixby,正日益成為我們與設(shè)備交互的主要方式。設(shè)想一下在自己的國(guó)家,要用外語與機(jī)器交談,僅僅是為了播放一首歌,相信大部分人都會(huì)覺得特別別扭。
?
我試了下,目前,Siri 只支持 21 種語言。
從民族學(xué)的角度看,世界上現(xiàn)在有 7000 多種語言。Siri 支持的 21 中的語言使用者占了地球總?cè)丝诘囊话?。添加新的語言會(huì)導(dǎo)致收益的減少,因?yàn)楣拘枰?jīng)過代價(jià)高昂而精細(xì)的開發(fā)過程,以迎合越來越小的人群。一些國(guó)家和地區(qū)的人口比較少,波蘭的人口為 3800 萬人,捷克共和國(guó)只有 1050 萬人,而斯洛伐克更少只有 540 萬。將斯洛伐克語添加到 Siri 或任何其他虛擬助手,將花費(fèi)和添加西班牙語一樣多的精力和錢,但需要注意的是西班牙有 4.37 億人口,而斯洛伐克只有 540 萬。
所以,如果 Siri 目前還不支持你的母語,你可能就得等待科技的進(jìn)步。幸運(yùn)的是,這種變革的苗頭已經(jīng)出現(xiàn)。
注意,虛擬助手花了很長(zhǎng)時(shí)間才到達(dá)這一步。
第一步:讓他們聽
“在識(shí)別語音時(shí),需要處理大量的數(shù)據(jù):重音,背景噪音,音量。因此,識(shí)別語音實(shí)際上要比產(chǎn)生語音困難得多?!?a class="article-link" target="_blank" href="/manufacturer/1000050/">百度計(jì)算語言學(xué)研究員 Andrew Gibiansky 說。 Gibiansky 還指出,盡管如此,語音識(shí)別領(lǐng)域的研究比語音領(lǐng)域的研究更為先進(jìn)。
一直以來語音識(shí)別的根本挑戰(zhàn)是把聲音轉(zhuǎn)換成文字。當(dāng)你和你的設(shè)備交談時(shí),語音會(huì)被轉(zhuǎn)化成波形,代表了頻率隨時(shí)間的變化。解決這個(gè)問題的首要方法之一是使波形某些部分與相應(yīng)的字符對(duì)齊。這種方法挺糟糕的,因?yàn)槲覀兌家圆煌穆曇粽f話。即使建立專門用來理解一個(gè)人的系統(tǒng)也不能很好的解決,因?yàn)槿藗兛梢杂貌煌姆绞秸f每個(gè)詞,比如改變節(jié)奏。如果一個(gè)詞說得很慢或者很快,這意味著輸入信號(hào)可能很長(zhǎng)或者很短,但是在兩種情況下,它都必須翻譯成同一組字符。
當(dāng)計(jì)算機(jī)科學(xué)家斷定將聲音直接映射到字符上并不是最好的方法時(shí),他們開始嘗試將波形的一部分映射到音素上,這些符號(hào)代表語言學(xué)中的音。這就相當(dāng)于建立了一個(gè)聲學(xué)模型,這些音素將進(jìn)入一個(gè)語言模型,把這些音翻譯成文字?;谶@種方法,帶有信號(hào)處理單元的自動(dòng)語音識(shí)別(ASR)系統(tǒng)的方案就出現(xiàn)了,你可以平滑輸入聲音,將波形轉(zhuǎn)換成頻譜圖,并將其分成約 20 毫秒的片段。這個(gè) ASR 也有一個(gè)聲學(xué)模型來將這些片段轉(zhuǎn)換成音素,以及一個(gè)語言模型,然后將這些音素轉(zhuǎn)換成文本。
“在過去,翻譯系統(tǒng)和語音文本系統(tǒng)是圍繞著相同的工具——隱馬爾可夫模型(HMMs)設(shè)計(jì)的,”Next IT 的首席技術(shù)革新官喬·杜姆林(Joe Dumoulin)說。Next IT 是一家為美國(guó)陸軍、美國(guó)鐵路公司(Amtrak)和英特爾(Intel)等公司設(shè)計(jì)虛擬助手的公司。
HMMs 是用來計(jì)算概率的,即以統(tǒng)計(jì)學(xué)的方式表示在復(fù)雜系統(tǒng)(如語言)中多個(gè)元素之間如何相互作用的。以大量的人工翻譯文本為例,就像歐洲議會(huì)的議事錄以所有歐盟成員國(guó)的語言提供一樣,用 HMMs 可以確定一個(gè)特定的輸入短語各種詞組合的可能性,以及你最終會(huì)得到一個(gè)或多或少可行的翻譯系統(tǒng)。這個(gè)想法同樣是采用抄錄語音的手法。
當(dāng)你從正確的角度看待這件事就變得清楚了。把語音看作一種語言,把音素當(dāng)作另一種語言。然后對(duì)音素和文字進(jìn)行同樣的處理。由于 HMMs 在機(jī)器翻譯方面工作得相當(dāng)好,所以很自然的選擇它在語音識(shí)別各步驟之間進(jìn)行轉(zhuǎn)換。
隨著時(shí)間的推移,開發(fā)的模型越來越大,積累的詞匯越來越多,像 Google 和 Nuanc 等 IT 巨頭采用的語音識(shí)別工具,單詞錯(cuò)誤率降低到 20%以下。但這種語音識(shí)別工具有一個(gè)重要的缺陷:它們是多年來人類細(xì)致微調(diào)的結(jié)果。要在一種新語言中達(dá)到這樣的精確程度,意味著幾乎從開始就需要由工程師、計(jì)算機(jī)科學(xué)家和語言學(xué)家組成團(tuán)隊(duì)合作。這樣花費(fèi)的代價(jià)是非常昂貴的,因此目前語音識(shí)別工具只支持最流行的語言。然而,在 2015 年出現(xiàn)了新的突破。
第二步:利用深度學(xué)習(xí)革命
圖|“十九世紀(jì)”的頻譜圖
2015 年,谷歌的語音識(shí)別系統(tǒng)以驚人的 49%的性能躍升震驚了全世界。這個(gè)系統(tǒng)怎么會(huì)如此迅速地從 20%的錯(cuò)誤率變成了 5%的錯(cuò)誤率呢?深度學(xué)習(xí)真的開始了。
深度神經(jīng)網(wǎng)絡(luò)(DNNs),是一種利用大數(shù)據(jù)和強(qiáng)大的硬件模仿人腦的算法。在上面概述的三種傳統(tǒng)的 ASR 模塊中,DNNs 取代了最具挑戰(zhàn)性和大工作量的聲學(xué)建模。不再需要預(yù)測(cè)音素。相反,只要系統(tǒng)事先攝取了數(shù)十萬小時(shí)的記錄語音,ASR 系統(tǒng)可以直接從原始的頻譜幀中獲取字符。(這就是為什么聽寫服務(wù)優(yōu)于虛擬助手,聽寫是 DNNs 大數(shù)據(jù)的來源,從而使真正的、自我改進(jìn)的聲學(xué)模型得以形成。)公司只需要很少的人力監(jiān)督就能做到這一點(diǎn),隨著時(shí)間的推移,這些系統(tǒng)也得到了改進(jìn)。
有一些小問題,就是這些系統(tǒng)無法預(yù)測(cè)如何拼寫一個(gè)以前沒見過的詞,在大多數(shù)情況下,它們都是專有名詞或新詞。但系統(tǒng)也不是完全失敗,而是以一種非常人性化的方式來處理這個(gè)問題:他們會(huì)根據(jù)發(fā)音來拼寫新單詞。對(duì)于基于 HMM 的語言模型而言一個(gè)音標(biāo)就像蛋糕的一小塊,如果它遇到一個(gè)小概率的詞組“try cough ski concerto”。該系統(tǒng)拼出來更有可能是“Tchaikovsky 柴可夫斯基”。
?
蘋果(Apple)的亞歷克斯·阿爾科索(Alex Acero)今年春天在接受路透社(Reuters)采訪時(shí),描述了蘋果是如何開始 Siri 學(xué)習(xí)上海話的。首先,公司邀請(qǐng)母語人士閱讀各種方言和口音的段落,并讓電腦從轉(zhuǎn)錄樣本中學(xué)習(xí)。但是這樣出現(xiàn)了一個(gè)問題,人們?cè)阡浺襞锢镒x這些段落,往往聽起來很沉悶,沒有感情,就是是不是他們平時(shí)自然說話的方式。
為此,科技公司使用一些巧妙的技巧來解決這個(gè)問題,比如用耳機(jī)來裝配揚(yáng)聲器,播放擁擠的咖啡館或購(gòu)物中心的背景音。為了讓參與者說話更加生動(dòng),工程師們讓他們閱讀詩歌、優(yōu)秀文學(xué)、或電影劇本,引導(dǎo)他們進(jìn)行語音表演。然后,通過聲音編輯軟件,給樣本添加各種各樣的噪音,比如風(fēng),汽車的發(fā)動(dòng)機(jī),遠(yuǎn)處的音樂,和其他人的交談。所有這些都有助于使樣本盡可能接近真實(shí)世界的數(shù)據(jù)。
這聽起來像是一種構(gòu)建 ASRs 的預(yù)深造方法。蘋果以完美主義著稱,在部署之前,會(huì)盡可能地對(duì)自己的系統(tǒng)進(jìn)行調(diào)整,這意味著,蘋果的研究更多地依賴于依賴人類的轉(zhuǎn)錄。相比之下,谷歌(Google)最近已經(jīng)展示了深度學(xué)習(xí)在這個(gè)領(lǐng)域真正能起到的作用。去年 8 月,谷歌(Google)聽寫增加了 21 種新語言,支持的語言數(shù)量達(dá)到驚人的 119 種語言。
第三步:算法理解
不管什么語言,都能理解你的話語。僅僅是復(fù)雜的 ASR 系統(tǒng)所有目標(biāo)中的第一部分。一個(gè)虛擬助手需要對(duì)此做些什么?通常這種查詢理解分三個(gè)步驟進(jìn)行,第一個(gè)步驟是域分類。首先,AI 本質(zhì)上試圖找出被請(qǐng)求任務(wù)屬于哪個(gè)類別。這是否與信息傳遞、看電影、回答事實(shí)問題、發(fā)出指示等有關(guān)?
助手最終選擇哪個(gè)領(lǐng)域通常取決于它是否能在文本中找到特定的關(guān)鍵字或關(guān)鍵字的組合。當(dāng)我們說“播放約翰尼·德普(Johnny Depp)主演的加勒比海盜電影預(yù)告片。”時(shí),助理會(huì)簡(jiǎn)單地計(jì)算一下,考慮到影片中包含“電影”、“預(yù)告片”和“主演”等詞語的內(nèi)容,它應(yīng)該選擇“電影”領(lǐng)域。
一旦找到域名,虛擬助手就可以進(jìn)行意圖檢測(cè)。這取決于你想讓你的虛擬助手采取什么行動(dòng)。就像在“電影”里,出現(xiàn)“播放”這個(gè)詞則很有可能是希望打開一個(gè)視頻文件。最后一個(gè)問題是播放哪個(gè)視頻。
為了做出猜測(cè),Siri 使用了語義標(biāo)簽或關(guān)鍵詞。比如說,要找到合適的預(yù)告片,我們需要填上“標(biāo)題”或“演員”這樣的關(guān)鍵詞,當(dāng)我們記不清標(biāo)題的時(shí)候,也可以是“情節(jié)”。在這里,Siri 很可能這樣發(fā)現(xiàn),在之前考慮過的兩個(gè)步驟中,Johnny Depp 是一個(gè)演員,而“加勒比?!保–aribbean)這個(gè)詞就在“海盜”(pirates)的旁邊,暗示著一部熱門電影的最新一部。
虛擬助手所能做的就是將這樣定義的意圖與針對(duì)它們的一組關(guān)鍵字組合在一起。亞馬遜的 Alexa 大約支持 16000 個(gè)這樣的組合。Next IT 公司最近發(fā)布了一套工具,供企業(yè)開發(fā)自己的虛擬助手,其中包含了驚人的 9 萬個(gè)意圖。
乍一看,另外一個(gè)國(guó)家的助手要本地化時(shí),要把所有這些都翻譯出來似乎是個(gè)惡夢(mèng)。然而,情況并非如此。這種處理輸入文本的方式意味著當(dāng)涉及到支持多種語言時(shí),對(duì)虛擬助手的大腦來說并不是什么大問題?!霸诜g系統(tǒng)中,可以測(cè)量輸出中的刪除、插入和不正確的翻譯數(shù)量來查看錯(cuò)誤率?!倍拍妨终f?!拔覀兯龅木褪遣榭次覀?cè)谶^程中刪除或插入的概念的數(shù)量。這就是為什么一種語言模型可以與其他語言一起使用,即使翻譯可能并不完美。只要助手能正確認(rèn)識(shí)概念,它就能很好地工作?!?/p>
根據(jù)杜姆林的說法,虛擬助手甚至可以通過機(jī)器翻譯意圖,獲得相當(dāng)好的結(jié)果?!斑@是可行的解決方案之一,”他說。Next IT 添加新語言的第一步是通過機(jī)器翻譯來運(yùn)行意圖和相應(yīng)的關(guān)鍵字?!叭缓?,我們與語言學(xué)家和專家合作來完善譯文。”然而,這最后一步僅僅是因?yàn)?Next IT 構(gòu)建的助手將使用他們自己的專業(yè)術(shù)語,工作在特定領(lǐng)域?!皩?duì)于機(jī)器翻譯來說,通常沒有可以使其可靠工作在特定領(lǐng)域的文本文檔,但是一般用途的助手更通用。用谷歌翻譯輸入“給我訂周日航班”,它會(huì)在每種語言下都找到正確答案?!倍拍妨终f。
可以看出機(jī)器學(xué)習(xí)的困境:使助手本地化,而不僅僅是翻譯,意味著要考慮到文化因素。這似乎很簡(jiǎn)單,比如要英國(guó)人把足球叫做“football”,而美國(guó)人叫“soccer”,這一問題似乎很容易理解,但這一問題還遠(yuǎn)不止于此。
“在葡萄牙,人們?cè)诮与娫挼臅r(shí)候會(huì)用到一個(gè)特定的短語,意思是‘誰在說話’。在美國(guó),這么說會(huì)認(rèn)為粗魯,但在那里,則什么都不是,就像是說‘你好’一樣?!倍拍妨终f。
因此,一個(gè)真正的會(huì)話人工智能必須了解給定語言和文化的這種細(xì)微差別,并意識(shí)到這是一種言語方式,而不是字面要求。根據(jù)杜姆林的說法,用一種新的語言來發(fā)現(xiàn)這種本地特性,并在新的語言中使用使用查詢理解模塊需要 30 到 90 天(這取決于虛擬助理需要覆蓋多少意圖)。這里的好處是,由于 Siri 和其他最流行的系統(tǒng)可以被第三方應(yīng)用開發(fā)者所使用,本地化的重?fù)?dān)主要落在希望 Siri 使用特定語言處理的公司身上。蘋果公司要求開發(fā)人員加入關(guān)鍵詞和短語示例,促使 Siri 以他們希望支持的所有語言觸發(fā)他們的應(yīng)用程序。這使本地化成為可能。
因此,對(duì)于多語言而言,識(shí)別語言和理解語言都是可行的(有了可行的時(shí)間、資源和成本承諾)。但這不是虛擬助手的終點(diǎn),一旦助手處理完我們的查詢,它還必須把結(jié)果傳達(dá)給我們。今天,這就是不那么流行的語言的發(fā)展方向。
?
和人交談
“為了生成語音,Siri 和其他類似的系統(tǒng)使用串連模型,”百度計(jì)算語言學(xué)研究員 Gibiansky 這樣表示?!按B”的意思是“串連在一起”,在語音生成系統(tǒng)中,串連在一起的是人類聲音的基本聲音。建立這種系統(tǒng)的一種方法是邀請(qǐng)一批語言學(xué)家來研究音素系統(tǒng),聲音工程師來研究信號(hào)處理,還有許許多多的人來研究每一個(gè)細(xì)節(jié)。這非常復(fù)雜、耗時(shí)又昂貴?!?/p>
像蘋果(Apple)或谷歌(Google)這樣的大型科技公司,完全有能力組織一支精通英語和其他廣泛使用語言的專家隊(duì)伍。但是,試著去找一個(gè)能在波蘭、斯洛伐克或蘇丹做同樣的事情的人,會(huì)非常困難。然而,串連模型是值得的,因?yàn)樗鼈兲峁┝俗钭匀弧⒆詈美斫獾暮铣烧Z音。
聘請(qǐng)以英語為母語的聲音演員,能夠把他們的聲音發(fā)給虛擬助手,接下來要做的就是構(gòu)建正確的腳本。就拿 Siri 來說?!癝iri 語音合成的質(zhì)量有明顯的差異,”Gibiansky 說?!爱?dāng)一個(gè)給定的單詞出現(xiàn)在數(shù)據(jù)庫(kù)中時(shí),聲音演員實(shí)際上在錄音的時(shí)候說過,這聽起來很自然,質(zhì)量是完美的。但如果不是這樣,系統(tǒng)必須連接。連接意味著將這些詞從語音的基本構(gòu)造塊(音素、雙音、半音素等等)串接在一起,質(zhì)量會(huì)下降?!币虼?,腳本的選擇取決于助手應(yīng)該做什么。而對(duì)于像 Siri 這樣的通用系統(tǒng),需要涵蓋范圍廣泛的會(huì)話語音。
聲音演員完成錄音,會(huì)得到了兩個(gè)文件。一個(gè)是文本文件,其中包含腳本;另一個(gè)是語音文件,其中包含了音頻。在這一階段,語言學(xué)家和其他專家需要仔細(xì)檢查語音文件,并將其與多個(gè)層次(整段段落、句子、單詞、音節(jié)、電話,所有這些都成為文件的語音單元)的文本文件進(jìn)行對(duì)比。
進(jìn)入這個(gè)過程的時(shí)間和努力都取決于所追求的質(zhì)量。按照音標(biāo)工作的 TTS 系統(tǒng)相當(dāng)簡(jiǎn)單。英語、印地語和波蘭語大約有 50 音標(biāo),讓所有這些都正確需要一小時(shí)左右的音頻。但最終的言語,卻沒有考慮到一個(gè)音標(biāo)如何轉(zhuǎn)換到另一個(gè)的,這是挺糟糕的。這樣是很機(jī)械呆板的,為了讓系統(tǒng)更自然,你需要使用雙元音,由兩個(gè)相連的音標(biāo)組成的語音單元。突然之間,你的言語單位的數(shù)量增長(zhǎng)到了一千到兩千之間。
在這一點(diǎn)上,聲音變得更好了,但這仍然不是有更高要求的用戶希望聽到的。這就是為什么大多數(shù)當(dāng)前的 TTS 系統(tǒng)都依賴于三音標(biāo),音標(biāo)中有一半以上以元音開始、輔音結(jié)束。但是聲音工程師和語言學(xué)家們并不能只用一個(gè)三音標(biāo)數(shù)據(jù)庫(kù)來完成。他們還需要提出一套詳細(xì)的韻律規(guī)則來描述特定語言中重音和語調(diào)的模式。Gibiansky 表示,完善這些服務(wù)用來與用戶交流的聲音,可能需要幾個(gè)月的努力工作。這就是為什么他和他在百度的同事們正在努力解決這個(gè)問題的原因——他們希望深入學(xué)習(xí),以徹底改變語音合成的方式,就像兩年前革命化語音識(shí)別一樣。
神經(jīng)語言
今年 3 月,由 Yuxuan Wang(王雨軒)領(lǐng)導(dǎo)谷歌研究團(tuán)隊(duì)發(fā)表了一篇名為《Tacotron》的論文,這是一篇關(guān)于一種新的 TTS 的論文。他們聲稱它是世界上第一個(gè)端到端的 TTS 系統(tǒng),這種端到端方式,意味著你只需給它文本和語音配對(duì),它就可以學(xué)會(huì)自己說任何語言。Tacotron 只用了 21 個(gè)小時(shí)轉(zhuǎn)錄音頻就掌握了英語。它的設(shè)計(jì)原理可以追溯到谷歌引入順序到序列的神經(jīng)翻譯。
為了將文本從一種語言翻譯成另一種語言,神經(jīng)網(wǎng)絡(luò)在源語言中獲取一系列符號(hào),并預(yù)測(cè)目標(biāo)語言中對(duì)應(yīng)的符號(hào)序列應(yīng)該是什么樣子。單詞被賦予了數(shù)值,并成為短語、句子或整個(gè)段落等較長(zhǎng)序列的符號(hào)。因此,像英語中的“小瑪麗想要冰淇淋”這樣的句子首先會(huì)變成一系列的符號(hào),比如“123456”,其中“1”代表“小”,“2”代表“瑪麗”,依此類推。翻譯為波蘭語時(shí),系統(tǒng)會(huì)嘗試猜出波蘭語相應(yīng)的符號(hào)順序,可能會(huì)想出類似“Ma?a Mary chce loda”的詞組,其中“1”代表“Ma?a”、“2”代表“Mary”、“3”代表“chce”等等。神經(jīng)翻譯算法通過分析源語言和目標(biāo)語言中大量的這樣排列的序列對(duì)來學(xué)習(xí)。就像在過去,一旦一種新技術(shù)在機(jī)器翻譯中占據(jù)主導(dǎo)地位,它也開始進(jìn)入語音識(shí)別和生成領(lǐng)域。
Tacotron 團(tuán)隊(duì)基本上將語音作為書面文本來翻譯成另一種目標(biāo)語言的。這個(gè)過程的開始看起來差不多,一個(gè)關(guān)鍵的區(qū)別是一個(gè)符號(hào)不再被定義為一個(gè)完整的單詞,而是一個(gè)單一的字符。(因此,“1”代表“a”,“2”代表“b”,等等。)一個(gè)字不再是一個(gè)符號(hào),而成為一個(gè)序列。可以把這看作是在算法對(duì)語言的理解上達(dá)到了更高的分辨率。字符級(jí)的分辨率比文字級(jí)的分辨率要高,但是它需要更高的計(jì)算能力。
對(duì)于語音,Tacotron 團(tuán)隊(duì)將符號(hào)定義為一個(gè)持續(xù)約 20 毫秒的光譜框架。其余的工作方式與神經(jīng)翻譯一樣;輸入文本中的一系列符號(hào)(字符),在輸出端被轉(zhuǎn)換成符號(hào)系列(語譜幀)。同別的系統(tǒng)學(xué)習(xí)過程一樣,Tacotron 也是通過分析這樣的序列學(xué)習(xí)的。
這種方式的結(jié)果很好。它對(duì)標(biāo)點(diǎn)符號(hào)很敏感,重音和語調(diào)準(zhǔn)確得出奇,而且還能知道如何讀出訓(xùn)練數(shù)據(jù)庫(kù)中沒有的單詞。你可以在這里聽到 Tacotron 的聲音,它只經(jīng)過幾個(gè)小時(shí)的訓(xùn)練就學(xué)會(huì)了這一切。
“深度學(xué)習(xí)系統(tǒng)最令人興奮之處在于,它只需要數(shù)據(jù)。你可以通過一次生成語音來解決這個(gè)問題,而對(duì)于所有其他語言,你可以應(yīng)用相同的機(jī)制?!盙ibiansky 說?!拔覀兛梢該碛袛?shù)百種語言和成千上萬的聲音,整個(gè)過程所花費(fèi)的金錢和精力要比我們今天使用的非神經(jīng)文本到語音系統(tǒng)少得多?!?/p>
在谷歌發(fā)布了 Tacotron 論文后不久,Gibiansky 的團(tuán)隊(duì)在百度推出了自己的系統(tǒng),名為“Deep Voice 2”。它使這種深入的學(xué)習(xí)應(yīng)用更進(jìn)一步?!拔蚁胝f,谷歌的論文描述了一個(gè)新的神經(jīng)網(wǎng)絡(luò)系統(tǒng),根據(jù)一個(gè)人 20 小時(shí)的講話,這個(gè)系統(tǒng)可以用這個(gè)聲音合成語音。我們?cè)谶@方面的改進(jìn)有兩個(gè)方面。”Gibiansky 告訴 Ars?!笆紫?,我們改進(jìn)了部分 Tacotron 使用的 WaveNet 系統(tǒng),這大大提高了音頻的質(zhì)量。但我們真正追求的目標(biāo)是證明我們不需要一個(gè)演講者 20 個(gè)小時(shí)的錄音。”
Deep Voice2 可以通過一個(gè)人 20 到 30 分鐘的錄音講話來學(xué)習(xí)用特定的聲音說話。其余所有的訓(xùn)練音頻都可以從多個(gè)演講者那里收集?!拔覀償?shù)據(jù)庫(kù)中的每個(gè)人僅有半小時(shí)的講話時(shí)間。有一百多個(gè),不同的聲音,不同的口音,不同的性別,”Gibiansky 表示?!霸谶x擇了系統(tǒng)應(yīng)該模仿誰的聲音之后,通過利用其余發(fā)言者的音頻中包含的所有信息,可以學(xué)習(xí)用這個(gè)聲音說話?!?/p>
“Deep Voice2 可以發(fā)出一個(gè)從來沒有被一個(gè)人說過的詞,這是它從其他聲音中學(xué)到的共同點(diǎn)?!盙ibiansky 聲稱。
Gibiansky 和百度認(rèn)為,這是打開了一個(gè)充滿可能性的世界。不僅僅是語音助手,而是使用深度學(xué)習(xí)語音生成作為保存全部語言的方法,或者作為一種工具讓其他人構(gòu)建高度特定的 TTS 系統(tǒng)?!皩⒉辉傩枰褂脤<覉F(tuán)隊(duì),”Gibiansky 說?!澳憧梢韵胂螅梢愿鶕?jù)需要,用數(shù)百種語言創(chuàng)建成千上萬個(gè)不同的聲音。這可以是非常個(gè)性化的?!?/p>
所以,盡管我們今天無法用自己的語言很好的與 Siri 對(duì)話,但這種擴(kuò)展的藍(lán)圖似乎已經(jīng)存在。根據(jù) Gibiansky 的說法,語音生成是幾年前語音識(shí)別領(lǐng)域。在兩到三年的時(shí)間內(nèi),或許可以實(shí)現(xiàn)把神經(jīng)語言者這項(xiàng)技術(shù)應(yīng)用到生產(chǎn)上。一旦到達(dá)這種水準(zhǔn),就可以看到何種語言的語音系統(tǒng)出現(xiàn)爆炸式增長(zhǎng)。
更多有關(guān)語音識(shí)別的資訊,歡迎訪問 與非網(wǎng)語音識(shí)別專區(qū)
與非網(wǎng)編譯內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!