国产成a人亚洲精v品无码樱花,91精品在线无毒不卡,在线中文字幕亚洲日韩2020

“芝麻開門。”
“芝麻關門。”
“我要去五樓。”

這幾條充滿童趣的語句，實際上是控制電梯的語音指令。疫情當前，電梯是非常高風險的區(qū)域，尤其是手指碰觸電梯按鍵的時候。針對這一場景，思必馳推出了電梯語音控制模塊。“在后裝的電梯上也可以進行安裝，而且安裝起來非常簡單方便。” 思必馳 IoT 商務總經理陳葦珍在演示過程中表示。

思必馳 IoT 商務總經理陳葦珍

“97%或者 99%只是實驗室數據”

電梯控制是一個典型的語音識別應用場景，技術的進步正在改變人機交互的方式和結果。

語音識別是人機交互中的重要技術，所涉及的領域包括信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等，近些年語音識別技術取得顯著進步，開始從實驗室走向市場。

人工智能和機器學習領域權威學者吳恩達此前表示，當語音識別準確率達到 99%時將改變人機交互方式。陳葦珍認為：“不管 97%還是 99%，如果單純強調這種實驗室的語音識別的數據，它的價值會相對有限，需要結合到具體的場景來看，比如說辦公、車載、家居、金融等領域的應用場景，再結合大數據的運算和認知計算，才能夠真正地形成一個好的交互體驗。”

她強調：“思必馳更關注的是完整的人機語音交互技術，除了語音控制之外，更多的是關注交互能力和對話能力。我們的語音識別包括連續(xù)的云端識別，還有實時識別、抗噪識別、遠場識別以及大詞匯識別和本地識別。”

關注思必馳的人都知道他們還有一個“語音識別++”。“除了提供文本信息識別之外，語音識別++也會有情緒識別、年齡識別、聲紋識別這些信息。” 陳葦珍介紹說：“我們的情緒識別已經能夠去支持覆蓋主流的情緒：憤怒、快樂、喜悅等，可以針對性地做出擬人化反映。同時這種分類的識別計算是為了把我們的識別信息進行多樣化，輔助生成用戶畫像。”

讓機器能夠感受人的喜怒哀樂，從人機交互走向人人交互，甚至是超越人人交互，這個過程確實不只是識別準確率提升的問題。

遠場和混合語言是“攔路虎”

在語音識別的具體應用場景中，我們總是能夠發(fā)現一些有共性且突出的識別障礙，比如遠場聲音的處理以及混合語言的處理。

遠場語音識別常見的場景比如會議室、車載場景、智能家居等，這些場景中會出現較為明顯的“雞尾酒會問題”，出現收音不理想和背景音噪聲等情況。

對于遠場語音識別而言，不僅要有好的語音識別算法，在硬件層面同樣需要一定規(guī)格的配置。陳葦珍表示：“思必馳推出了軟硬一體化的麥克風陣列解決方案，能夠支持在家居環(huán)境 5 米的良好交互效果，能夠支持 360 度的角度適應。線性陣列方面，能夠支持 180 度的角度適應，同時可以實現純軟件算法的降噪。”

另一個障礙是混合語言應用場景，包括中英文混合、方言等。“混合識別確實是比較難攻克的問題，主要難點實際是在聲學模型上。目前，我們在聲學模型的建模上采用從端到端的中英文交雜輸出的方式。這個模型的好處是一個模型能夠同時支持中文、英文或者是中英文交雜輸出，同時能夠保證它的中文性能不受損傷。” 陳葦珍講到。

結合她的描述，這樣的方式是可以復制的，從中文+英文到中文+粵語，甚至是中文+英文+粵語，能夠融入的方言還包括上海話、四川話、重慶話和山東話等。

后記

讓機器與人能夠像人與人一樣溝通，這是一種感性的需求。隨著智能語音技術的不斷精進，人與機器之間必將突破交互的限制，達到交流的程度。在人與人的交流過程中，智慧的人類彼此之間有著更為豐富的表達，對于機器而言人類是“善變”的。因此，讓機器找到萬變不離其宗的規(guī)律，是人機交互更進一步的關鍵所在。

智能語音的蛻變，不是一場數字游戲

“97%或者 99%只是實驗室數據”

遠場和混合語言是“攔路虎”

后記

相關推薦

電子產業(yè)圖譜

智能語音的蛻變，不是一場數字游戲

“97%或者 99%只是實驗室數據”

遠場和混合語言是“攔路虎”

后記

相關推薦

電子產業(yè)圖譜

智能語音的蛻變，不是一場數字游戲