亚洲国产aⅴ成人精品无吗,91精品成人影院

蘋果最近的秋季發(fā)布會(huì)主要圍繞著 iPhone X，更換 Touch ID 的人臉識(shí)別，OLED 顯示屏以及支持蜂窩網(wǎng)絡(luò)的 Apple Watch。但是，生活在波蘭、立陶宛、斯洛伐克、捷克共和國(guó)以及世界上許多其他地方的人們，并沒有注意以上那些“閃光點(diǎn)”，而是發(fā)現(xiàn)另外一件事情。

Siri 沒有學(xué)習(xí)新的語言，這可是件大事。

觸摸屏作為智能手機(jī)的界面工作得很出色，但是對(duì)于智能手表的微型顯示器來說，它就成了一個(gè)麻煩。蘋果計(jì)劃在今年年底前推出的智能音箱根本就不會(huì)有屏幕。Siri 和其他虛擬助手，如 Google Assistant、Cortana 或 Bixby，正日益成為我們與設(shè)備交互的主要方式。設(shè)想一下在自己的國(guó)家，要用外語與機(jī)器交談，僅僅是為了播放一首歌，相信大部分人都會(huì)覺得特別別扭。

我試了下，目前，Siri 只支持 21 種語言。

從民族學(xué)的角度看，世界上現(xiàn)在有 7000 多種語言。Siri 支持的 21 中的語言使用者占了地球總?cè)丝诘囊话?。添加新的語言會(huì)導(dǎo)致收益的減少，因?yàn)楣拘枰?jīng)過代價(jià)高昂而精細(xì)的開發(fā)過程，以迎合越來越小的人群。一些國(guó)家和地區(qū)的人口比較少，波蘭的人口為 3800 萬人，捷克共和國(guó)只有 1050 萬人，而斯洛伐克更少只有 540 萬。將斯洛伐克語添加到 Siri 或任何其他虛擬助手，將花費(fèi)和添加西班牙語一樣多的精力和錢，但需要注意的是西班牙有 4.37 億人口，而斯洛伐克只有 540 萬。

所以，如果 Siri 目前還不支持你的母語，你可能就得等待科技的進(jìn)步。幸運(yùn)的是，這種變革的苗頭已經(jīng)出現(xiàn)。

注意，虛擬助手花了很長(zhǎng)時(shí)間才到達(dá)這一步。

第一步：讓他們聽

“在識(shí)別語音時(shí)，需要處理大量的數(shù)據(jù)：重音，背景噪音，音量。因此，識(shí)別語音實(shí)際上要比產(chǎn)生語音困難得多?！?a class="article-link" target="_blank" href="/manufacturer/1000050/">百度計(jì)算語言學(xué)研究員 Andrew Gibiansky 說。 Gibiansky 還指出，盡管如此，語音識(shí)別領(lǐng)域的研究比語音領(lǐng)域的研究更為先進(jìn)。

一直以來語音識(shí)別的根本挑戰(zhàn)是把聲音轉(zhuǎn)換成文字。當(dāng)你和你的設(shè)備交談時(shí)，語音會(huì)被轉(zhuǎn)化成波形，代表了頻率隨時(shí)間的變化。解決這個(gè)問題的首要方法之一是使波形某些部分與相應(yīng)的字符對(duì)齊。這種方法挺糟糕的，因?yàn)槲覀兌家圆煌穆曇粽f話。即使建立專門用來理解一個(gè)人的系統(tǒng)也不能很好的解決，因?yàn)槿藗兛梢杂貌煌姆绞秸f每個(gè)詞，比如改變節(jié)奏。如果一個(gè)詞說得很慢或者很快，這意味著輸入信號(hào)可能很長(zhǎng)或者很短，但是在兩種情況下，它都必須翻譯成同一組字符。

當(dāng)計(jì)算機(jī)科學(xué)家斷定將聲音直接映射到字符上并不是最好的方法時(shí)，他們開始嘗試將波形的一部分映射到音素上，這些符號(hào)代表語言學(xué)中的音。這就相當(dāng)于建立了一個(gè)聲學(xué)模型，這些音素將進(jìn)入一個(gè)語言模型，把這些音翻譯成文字?；谶@種方法，帶有信號(hào)處理單元的自動(dòng)語音識(shí)別（ASR）系統(tǒng)的方案就出現(xiàn)了，你可以平滑輸入聲音，將波形轉(zhuǎn)換成頻譜圖，并將其分成約 20 毫秒的片段。這個(gè) ASR 也有一個(gè)聲學(xué)模型來將這些片段轉(zhuǎn)換成音素，以及一個(gè)語言模型，然后將這些音素轉(zhuǎn)換成文本。

“在過去，翻譯系統(tǒng)和語音文本系統(tǒng)是圍繞著相同的工具——隱馬爾可夫模型（HMMs）設(shè)計(jì)的，”Next IT 的首席技術(shù)革新官喬·杜姆林(Joe Dumoulin)說。Next IT 是一家為美國(guó)陸軍、美國(guó)鐵路公司(Amtrak)和英特爾(Intel)等公司設(shè)計(jì)虛擬助手的公司。

HMMs 是用來計(jì)算概率的，即以統(tǒng)計(jì)學(xué)的方式表示在復(fù)雜系統(tǒng)（如語言）中多個(gè)元素之間如何相互作用的。以大量的人工翻譯文本為例，就像歐洲議會(huì)的議事錄以所有歐盟成員國(guó)的語言提供一樣，用 HMMs 可以確定一個(gè)特定的輸入短語各種詞組合的可能性，以及你最終會(huì)得到一個(gè)或多或少可行的翻譯系統(tǒng)。這個(gè)想法同樣是采用抄錄語音的手法。

當(dāng)你從正確的角度看待這件事就變得清楚了。把語音看作一種語言，把音素當(dāng)作另一種語言。然后對(duì)音素和文字進(jìn)行同樣的處理。由于 HMMs 在機(jī)器翻譯方面工作得相當(dāng)好，所以很自然的選擇它在語音識(shí)別各步驟之間進(jìn)行轉(zhuǎn)換。

隨著時(shí)間的推移，開發(fā)的模型越來越大，積累的詞匯越來越多，像 Google 和 Nuanc 等 IT 巨頭采用的語音識(shí)別工具，單詞錯(cuò)誤率降低到 20%以下。但這種語音識(shí)別工具有一個(gè)重要的缺陷：它們是多年來人類細(xì)致微調(diào)的結(jié)果。要在一種新語言中達(dá)到這樣的精確程度，意味著幾乎從開始就需要由工程師、計(jì)算機(jī)科學(xué)家和語言學(xué)家組成團(tuán)隊(duì)合作。這樣花費(fèi)的代價(jià)是非常昂貴的，因此目前語音識(shí)別工具只支持最流行的語言。然而，在 2015 年出現(xiàn)了新的突破。

第二步：利用深度學(xué)習(xí)革命

圖|“十九世紀(jì)”的頻譜圖

2015 年，谷歌的語音識(shí)別系統(tǒng)以驚人的 49%的性能躍升震驚了全世界。這個(gè)系統(tǒng)怎么會(huì)如此迅速地從 20%的錯(cuò)誤率變成了 5%的錯(cuò)誤率呢？深度學(xué)習(xí)真的開始了。

深度神經(jīng)網(wǎng)絡(luò)（DNNs），是一種利用大數(shù)據(jù)和強(qiáng)大的硬件模仿人腦的算法。在上面概述的三種傳統(tǒng)的 ASR 模塊中，DNNs 取代了最具挑戰(zhàn)性和大工作量的聲學(xué)建模。不再需要預(yù)測(cè)音素。相反，只要系統(tǒng)事先攝取了數(shù)十萬小時(shí)的記錄語音，ASR 系統(tǒng)可以直接從原始的頻譜幀中獲取字符。（這就是為什么聽寫服務(wù)優(yōu)于虛擬助手，聽寫是 DNNs 大數(shù)據(jù)的來源，從而使真正的、自我改進(jìn)的聲學(xué)模型得以形成。）公司只需要很少的人力監(jiān)督就能做到這一點(diǎn)，隨著時(shí)間的推移，這些系統(tǒng)也得到了改進(jìn)。

有一些小問題，就是這些系統(tǒng)無法預(yù)測(cè)如何拼寫一個(gè)以前沒見過的詞，在大多數(shù)情況下，它們都是專有名詞或新詞。但系統(tǒng)也不是完全失敗，而是以一種非常人性化的方式來處理這個(gè)問題：他們會(huì)根據(jù)發(fā)音來拼寫新單詞。對(duì)于基于 HMM 的語言模型而言一個(gè)音標(biāo)就像蛋糕的一小塊，如果它遇到一個(gè)小概率的詞組“try cough ski concerto”。該系統(tǒng)拼出來更有可能是“Tchaikovsky 柴可夫斯基”。

蘋果(Apple)的亞歷克斯·阿爾科索(Alex Acero)今年春天在接受路透社(Reuters)采訪時(shí)，描述了蘋果是如何開始 Siri 學(xué)習(xí)上海話的。首先，公司邀請(qǐng)母語人士閱讀各種方言和口音的段落，并讓電腦從轉(zhuǎn)錄樣本中學(xué)習(xí)。但是這樣出現(xiàn)了一個(gè)問題，人們?cè)阡浺襞锢镒x這些段落，往往聽起來很沉悶，沒有感情，就是是不是他們平時(shí)自然說話的方式。

為此，科技公司使用一些巧妙的技巧來解決這個(gè)問題，比如用耳機(jī)來裝配揚(yáng)聲器，播放擁擠的咖啡館或購(gòu)物中心的背景音。為了讓參與者說話更加生動(dòng)，工程師們讓他們閱讀詩歌、優(yōu)秀文學(xué)、或電影劇本，引導(dǎo)他們進(jìn)行語音表演。然后，通過聲音編輯軟件，給樣本添加各種各樣的噪音，比如風(fēng)，汽車的發(fā)動(dòng)機(jī)，遠(yuǎn)處的音樂，和其他人的交談。所有這些都有助于使樣本盡可能接近真實(shí)世界的數(shù)據(jù)。

這聽起來像是一種構(gòu)建 ASRs 的預(yù)深造方法。蘋果以完美主義著稱，在部署之前，會(huì)盡可能地對(duì)自己的系統(tǒng)進(jìn)行調(diào)整，這意味著，蘋果的研究更多地依賴于依賴人類的轉(zhuǎn)錄。相比之下，谷歌（Google）最近已經(jīng)展示了深度學(xué)習(xí)在這個(gè)領(lǐng)域真正能起到的作用。去年 8 月，谷歌（Google）聽寫增加了 21 種新語言，支持的語言數(shù)量達(dá)到驚人的 119 種語言。

第三步：算法理解

不管什么語言，都能理解你的話語。僅僅是復(fù)雜的 ASR 系統(tǒng)所有目標(biāo)中的第一部分。一個(gè)虛擬助手需要對(duì)此做些什么？通常這種查詢理解分三個(gè)步驟進(jìn)行，第一個(gè)步驟是域分類。首先，AI 本質(zhì)上試圖找出被請(qǐng)求任務(wù)屬于哪個(gè)類別。這是否與信息傳遞、看電影、回答事實(shí)問題、發(fā)出指示等有關(guān)？

助手最終選擇哪個(gè)領(lǐng)域通常取決于它是否能在文本中找到特定的關(guān)鍵字或關(guān)鍵字的組合。當(dāng)我們說“播放約翰尼·德普（Johnny Depp）主演的加勒比海盜電影預(yù)告片。”時(shí)，助理會(huì)簡(jiǎn)單地計(jì)算一下，考慮到影片中包含“電影”、“預(yù)告片”和“主演”等詞語的內(nèi)容，它應(yīng)該選擇“電影”領(lǐng)域。

一旦找到域名，虛擬助手就可以進(jìn)行意圖檢測(cè)。這取決于你想讓你的虛擬助手采取什么行動(dòng)。就像在“電影”里，出現(xiàn)“播放”這個(gè)詞則很有可能是希望打開一個(gè)視頻文件。最后一個(gè)問題是播放哪個(gè)視頻。

為了做出猜測(cè)，Siri 使用了語義標(biāo)簽或關(guān)鍵詞。比如說，要找到合適的預(yù)告片，我們需要填上“標(biāo)題”或“演員”這樣的關(guān)鍵詞，當(dāng)我們記不清標(biāo)題的時(shí)候，也可以是“情節(jié)”。在這里，Siri 很可能這樣發(fā)現(xiàn)，在之前考慮過的兩個(gè)步驟中，Johnny Depp 是一個(gè)演員，而“加勒比?！保–aribbean）這個(gè)詞就在“海盜”（pirates）的旁邊，暗示著一部熱門電影的最新一部。

虛擬助手所能做的就是將這樣定義的意圖與針對(duì)它們的一組關(guān)鍵字組合在一起。亞馬遜的 Alexa 大約支持 16000 個(gè)這樣的組合。Next IT 公司最近發(fā)布了一套工具，供企業(yè)開發(fā)自己的虛擬助手，其中包含了驚人的 9 萬個(gè)意圖。

乍一看，另外一個(gè)國(guó)家的助手要本地化時(shí)，要把所有這些都翻譯出來似乎是個(gè)惡夢(mèng)。然而，情況并非如此。這種處理輸入文本的方式意味著當(dāng)涉及到支持多種語言時(shí)，對(duì)虛擬助手的大腦來說并不是什么大問題?！霸诜g系統(tǒng)中，可以測(cè)量輸出中的刪除、插入和不正確的翻譯數(shù)量來查看錯(cuò)誤率?！倍拍妨终f?！拔覀兯龅木褪遣榭次覀?cè)谶^程中刪除或插入的概念的數(shù)量。這就是為什么一種語言模型可以與其他語言一起使用，即使翻譯可能并不完美。只要助手能正確認(rèn)識(shí)概念，它就能很好地工作?！?/p>

根據(jù)杜姆林的說法，虛擬助手甚至可以通過機(jī)器翻譯意圖，獲得相當(dāng)好的結(jié)果?！斑@是可行的解決方案之一，”他說。Next IT 添加新語言的第一步是通過機(jī)器翻譯來運(yùn)行意圖和相應(yīng)的關(guān)鍵字?！叭缓?，我們與語言學(xué)家和專家合作來完善譯文。”然而，這最后一步僅僅是因?yàn)?Next IT 構(gòu)建的助手將使用他們自己的專業(yè)術(shù)語，工作在特定領(lǐng)域?！皩?duì)于機(jī)器翻譯來說，通常沒有可以使其可靠工作在特定領(lǐng)域的文本文檔，但是一般用途的助手更通用。用谷歌翻譯輸入“給我訂周日航班”，它會(huì)在每種語言下都找到正確答案?！倍拍妨终f。

可以看出機(jī)器學(xué)習(xí)的困境：使助手本地化，而不僅僅是翻譯，意味著要考慮到文化因素。這似乎很簡(jiǎn)單，比如要英國(guó)人把足球叫做“football”，而美國(guó)人叫“soccer”，這一問題似乎很容易理解，但這一問題還遠(yuǎn)不止于此。

“在葡萄牙，人們?cè)诮与娫挼臅r(shí)候會(huì)用到一個(gè)特定的短語，意思是‘誰在說話’。在美國(guó)，這么說會(huì)認(rèn)為粗魯，但在那里，則什么都不是，就像是說‘你好’一樣?！倍拍妨终f。

因此，一個(gè)真正的會(huì)話人工智能必須了解給定語言和文化的這種細(xì)微差別，并意識(shí)到這是一種言語方式，而不是字面要求。根據(jù)杜姆林的說法，用一種新的語言來發(fā)現(xiàn)這種本地特性，并在新的語言中使用使用查詢理解模塊需要 30 到 90 天（這取決于虛擬助理需要覆蓋多少意圖）。這里的好處是，由于 Siri 和其他最流行的系統(tǒng)可以被第三方應(yīng)用開發(fā)者所使用，本地化的重?fù)?dān)主要落在希望 Siri 使用特定語言處理的公司身上。蘋果公司要求開發(fā)人員加入關(guān)鍵詞和短語示例，促使 Siri 以他們希望支持的所有語言觸發(fā)他們的應(yīng)用程序。這使本地化成為可能。

因此，對(duì)于多語言而言，識(shí)別語言和理解語言都是可行的（有了可行的時(shí)間、資源和成本承諾）。但這不是虛擬助手的終點(diǎn)，一旦助手處理完我們的查詢，它還必須把結(jié)果傳達(dá)給我們。今天，這就是不那么流行的語言的發(fā)展方向。

和人交談

“為了生成語音，Siri 和其他類似的系統(tǒng)使用串連模型，”百度計(jì)算語言學(xué)研究員 Gibiansky 這樣表示?！按B”的意思是“串連在一起”，在語音生成系統(tǒng)中，串連在一起的是人類聲音的基本聲音。建立這種系統(tǒng)的一種方法是邀請(qǐng)一批語言學(xué)家來研究音素系統(tǒng)，聲音工程師來研究信號(hào)處理，還有許許多多的人來研究每一個(gè)細(xì)節(jié)。這非常復(fù)雜、耗時(shí)又昂貴?！?/p>

像蘋果(Apple)或谷歌(Google)這樣的大型科技公司，完全有能力組織一支精通英語和其他廣泛使用語言的專家隊(duì)伍。但是，試著去找一個(gè)能在波蘭、斯洛伐克或蘇丹做同樣的事情的人，會(huì)非常困難。然而，串連模型是值得的，因?yàn)樗鼈兲峁┝俗钭匀弧⒆詈美斫獾暮铣烧Z音。

聘請(qǐng)以英語為母語的聲音演員，能夠把他們的聲音發(fā)給虛擬助手，接下來要做的就是構(gòu)建正確的腳本。就拿 Siri 來說?！癝iri 語音合成的質(zhì)量有明顯的差異，”Gibiansky 說?！爱?dāng)一個(gè)給定的單詞出現(xiàn)在數(shù)據(jù)庫(kù)中時(shí)，聲音演員實(shí)際上在錄音的時(shí)候說過，這聽起來很自然，質(zhì)量是完美的。但如果不是這樣，系統(tǒng)必須連接。連接意味著將這些詞從語音的基本構(gòu)造塊（音素、雙音、半音素等等）串接在一起，質(zhì)量會(huì)下降?！币虼?，腳本的選擇取決于助手應(yīng)該做什么。而對(duì)于像 Siri 這樣的通用系統(tǒng)，需要涵蓋范圍廣泛的會(huì)話語音。

聲音演員完成錄音，會(huì)得到了兩個(gè)文件。一個(gè)是文本文件，其中包含腳本；另一個(gè)是語音文件，其中包含了音頻。在這一階段，語言學(xué)家和其他專家需要仔細(xì)檢查語音文件，并將其與多個(gè)層次（整段段落、句子、單詞、音節(jié)、電話，所有這些都成為文件的語音單元）的文本文件進(jìn)行對(duì)比。

進(jìn)入這個(gè)過程的時(shí)間和努力都取決于所追求的質(zhì)量。按照音標(biāo)工作的 TTS 系統(tǒng)相當(dāng)簡(jiǎn)單。英語、印地語和波蘭語大約有 50 音標(biāo)，讓所有這些都正確需要一小時(shí)左右的音頻。但最終的言語，卻沒有考慮到一個(gè)音標(biāo)如何轉(zhuǎn)換到另一個(gè)的，這是挺糟糕的。這樣是很機(jī)械呆板的，為了讓系統(tǒng)更自然，你需要使用雙元音，由兩個(gè)相連的音標(biāo)組成的語音單元。突然之間，你的言語單位的數(shù)量增長(zhǎng)到了一千到兩千之間。

在這一點(diǎn)上，聲音變得更好了，但這仍然不是有更高要求的用戶希望聽到的。這就是為什么大多數(shù)當(dāng)前的 TTS 系統(tǒng)都依賴于三音標(biāo)，音標(biāo)中有一半以上以元音開始、輔音結(jié)束。但是聲音工程師和語言學(xué)家們并不能只用一個(gè)三音標(biāo)數(shù)據(jù)庫(kù)來完成。他們還需要提出一套詳細(xì)的韻律規(guī)則來描述特定語言中重音和語調(diào)的模式。Gibiansky 表示，完善這些服務(wù)用來與用戶交流的聲音，可能需要幾個(gè)月的努力工作。這就是為什么他和他在百度的同事們正在努力解決這個(gè)問題的原因——他們希望深入學(xué)習(xí)，以徹底改變語音合成的方式，就像兩年前革命化語音識(shí)別一樣。

神經(jīng)語言

今年 3 月，由 Yuxuan Wang（王雨軒）領(lǐng)導(dǎo)谷歌研究團(tuán)隊(duì)發(fā)表了一篇名為《Tacotron》的論文，這是一篇關(guān)于一種新的 TTS 的論文。他們聲稱它是世界上第一個(gè)端到端的 TTS 系統(tǒng)，這種端到端方式，意味著你只需給它文本和語音配對(duì)，它就可以學(xué)會(huì)自己說任何語言。Tacotron 只用了 21 個(gè)小時(shí)轉(zhuǎn)錄音頻就掌握了英語。它的設(shè)計(jì)原理可以追溯到谷歌引入順序到序列的神經(jīng)翻譯。

為了將文本從一種語言翻譯成另一種語言，神經(jīng)網(wǎng)絡(luò)在源語言中獲取一系列符號(hào)，并預(yù)測(cè)目標(biāo)語言中對(duì)應(yīng)的符號(hào)序列應(yīng)該是什么樣子。單詞被賦予了數(shù)值，并成為短語、句子或整個(gè)段落等較長(zhǎng)序列的符號(hào)。因此，像英語中的“小瑪麗想要冰淇淋”這樣的句子首先會(huì)變成一系列的符號(hào)，比如“123456”，其中“1”代表“小”，“2”代表“瑪麗”，依此類推。翻譯為波蘭語時(shí)，系統(tǒng)會(huì)嘗試猜出波蘭語相應(yīng)的符號(hào)順序，可能會(huì)想出類似“Ma?a Mary chce loda”的詞組，其中“1”代表“Ma?a”、“2”代表“Mary”、“3”代表“chce”等等。神經(jīng)翻譯算法通過分析源語言和目標(biāo)語言中大量的這樣排列的序列對(duì)來學(xué)習(xí)。就像在過去，一旦一種新技術(shù)在機(jī)器翻譯中占據(jù)主導(dǎo)地位，它也開始進(jìn)入語音識(shí)別和生成領(lǐng)域。

Tacotron 團(tuán)隊(duì)基本上將語音作為書面文本來翻譯成另一種目標(biāo)語言的。這個(gè)過程的開始看起來差不多，一個(gè)關(guān)鍵的區(qū)別是一個(gè)符號(hào)不再被定義為一個(gè)完整的單詞，而是一個(gè)單一的字符。（因此，“1”代表“a”，“2”代表“b”，等等。）一個(gè)字不再是一個(gè)符號(hào)，而成為一個(gè)序列。可以把這看作是在算法對(duì)語言的理解上達(dá)到了更高的分辨率。字符級(jí)的分辨率比文字級(jí)的分辨率要高，但是它需要更高的計(jì)算能力。

對(duì)于語音，Tacotron 團(tuán)隊(duì)將符號(hào)定義為一個(gè)持續(xù)約 20 毫秒的光譜框架。其余的工作方式與神經(jīng)翻譯一樣；輸入文本中的一系列符號(hào)（字符），在輸出端被轉(zhuǎn)換成符號(hào)系列（語譜幀）。同別的系統(tǒng)學(xué)習(xí)過程一樣，Tacotron 也是通過分析這樣的序列學(xué)習(xí)的。

這種方式的結(jié)果很好。它對(duì)標(biāo)點(diǎn)符號(hào)很敏感，重音和語調(diào)準(zhǔn)確得出奇，而且還能知道如何讀出訓(xùn)練數(shù)據(jù)庫(kù)中沒有的單詞。你可以在這里聽到 Tacotron 的聲音，它只經(jīng)過幾個(gè)小時(shí)的訓(xùn)練就學(xué)會(huì)了這一切。

“深度學(xué)習(xí)系統(tǒng)最令人興奮之處在于，它只需要數(shù)據(jù)。你可以通過一次生成語音來解決這個(gè)問題，而對(duì)于所有其他語言，你可以應(yīng)用相同的機(jī)制?！盙ibiansky 說?！拔覀兛梢該碛袛?shù)百種語言和成千上萬的聲音，整個(gè)過程所花費(fèi)的金錢和精力要比我們今天使用的非神經(jīng)文本到語音系統(tǒng)少得多?！?/p>

在谷歌發(fā)布了 Tacotron 論文后不久，Gibiansky 的團(tuán)隊(duì)在百度推出了自己的系統(tǒng)，名為“Deep Voice 2”。它使這種深入的學(xué)習(xí)應(yīng)用更進(jìn)一步?！拔蚁胝f，谷歌的論文描述了一個(gè)新的神經(jīng)網(wǎng)絡(luò)系統(tǒng)，根據(jù)一個(gè)人 20 小時(shí)的講話，這個(gè)系統(tǒng)可以用這個(gè)聲音合成語音。我們?cè)谶@方面的改進(jìn)有兩個(gè)方面。”Gibiansky 告訴 Ars?！笆紫?，我們改進(jìn)了部分 Tacotron 使用的 WaveNet 系統(tǒng)，這大大提高了音頻的質(zhì)量。但我們真正追求的目標(biāo)是證明我們不需要一個(gè)演講者 20 個(gè)小時(shí)的錄音。”

Deep Voice2 可以通過一個(gè)人 20 到 30 分鐘的錄音講話來學(xué)習(xí)用特定的聲音說話。其余所有的訓(xùn)練音頻都可以從多個(gè)演講者那里收集?！拔覀償?shù)據(jù)庫(kù)中的每個(gè)人僅有半小時(shí)的講話時(shí)間。有一百多個(gè)，不同的聲音，不同的口音，不同的性別，”Gibiansky 表示?！霸谶x擇了系統(tǒng)應(yīng)該模仿誰的聲音之后，通過利用其余發(fā)言者的音頻中包含的所有信息，可以學(xué)習(xí)用這個(gè)聲音說話?！?/p>

“Deep Voice2 可以發(fā)出一個(gè)從來沒有被一個(gè)人說過的詞，這是它從其他聲音中學(xué)到的共同點(diǎn)?！盙ibiansky 聲稱。

Gibiansky 和百度認(rèn)為，這是打開了一個(gè)充滿可能性的世界。不僅僅是語音助手，而是使用深度學(xué)習(xí)語音生成作為保存全部語言的方法，或者作為一種工具讓其他人構(gòu)建高度特定的 TTS 系統(tǒng)?！皩⒉辉傩枰褂脤＜覉F(tuán)隊(duì)，”Gibiansky 說?！澳憧梢韵胂螅梢愿鶕?jù)需要，用數(shù)百種語言創(chuàng)建成千上萬個(gè)不同的聲音。這可以是非常個(gè)性化的?！?/p>

所以，盡管我們今天無法用自己的語言很好的與 Siri 對(duì)話，但這種擴(kuò)展的藍(lán)圖似乎已經(jīng)存在。根據(jù) Gibiansky 的說法，語音生成是幾年前語音識(shí)別領(lǐng)域。在兩到三年的時(shí)間內(nèi)，或許可以實(shí)現(xiàn)把神經(jīng)語言者這項(xiàng)技術(shù)應(yīng)用到生產(chǎn)上。一旦到達(dá)這種水準(zhǔn)，就可以看到何種語言的語音系統(tǒng)出現(xiàn)爆炸式增長(zhǎng)。

更多有關(guān)語音識(shí)別的資訊，歡迎訪問與非網(wǎng)語音識(shí)別專區(qū)

與非網(wǎng)編譯內(nèi)容，未經(jīng)許可，不得轉(zhuǎn)載！