加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

智能音箱打開語(yǔ)音交互首扇窗,智能語(yǔ)音還可在哪施展拳腳

原創(chuàng)
2017/09/17
18
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論


?

被譽(yù)為下一代人機(jī)交互新模式的智能語(yǔ)音,融合了多種人工智能技術(shù),涵蓋識(shí)別與交互環(huán)節(jié)。
?

如今,智能語(yǔ)音作為 AI 突破口似乎已是業(yè)內(nèi)共識(shí),未來必將扮演“連接器”、入口的角色,把信息、內(nèi)容、服務(wù)連接起來。互聯(lián)網(wǎng)女皇瑪麗·米爾克在 2016 年的互聯(lián)網(wǎng)趨勢(shì)報(bào)告中,把語(yǔ)音交互列為 2016 年的發(fā)展趨勢(shì)之一。未來十年將是人工智能商業(yè)化落地的關(guān)鍵周期,智能語(yǔ)音也將成為重要受益者。

智能音箱打開語(yǔ)音交互首扇窗
智能音箱的本質(zhì)是一種基于語(yǔ)音人機(jī)交互的 AI 產(chǎn)品。

作為智能語(yǔ)音落地的先驅(qū)者,亞馬遜 Echo 迅速成為“現(xiàn)象級(jí)”產(chǎn)品。隨后,國(guó)內(nèi)外所有 IT 巨頭相繼進(jìn)入到語(yǔ)音交互市場(chǎng),2015 年科大訊飛智能音箱叮咚、2016 年谷歌智能音箱 Google Home,2017 年智能音箱發(fā)布更密集聯(lián)想、蘋果、微軟、阿里、百度騰訊、華為等紛紛入局。

然而,智能音箱本身并不是爭(zhēng)奪的戰(zhàn)場(chǎng),真正的戰(zhàn)場(chǎng)是在下一代人機(jī)交互的入口之爭(zhēng),各巨頭都希望在人機(jī)交互變革前搶先入局,以抓住這次分紅的機(jī)會(huì)。因此,背后之爭(zhēng)其實(shí)是用戶、數(shù)據(jù)、入口的資源的搶奪。

如今,我們正見證著語(yǔ)音交互時(shí)代到來,也逐漸從鍵盤、鼠標(biāo)、遙控的時(shí)代向語(yǔ)音交互的時(shí)代過渡。當(dāng)然,交互方式的變革將帶來極其廣泛而深遠(yuǎn)的影響,因此單個(gè)產(chǎn)品上不能成本背后的推動(dòng)力,但變革需要找的一個(gè)起點(diǎn)與支點(diǎn),智能音箱便是推動(dòng)變革的開端。未來,我們必將看到智能語(yǔ)音滲透到各個(gè)領(lǐng)域。

中國(guó)智能音箱市場(chǎng)的“熱”與“冷”

智能音箱的發(fā)展歷程可大致劃分為三階段:

2014-2016,亞馬遜 Echo 開局,掌舵風(fēng)向;

2016-2017,谷歌極力突圍,Google Home 全力進(jìn)擊;

2017,戰(zhàn)場(chǎng)混戰(zhàn),全生態(tài)較量。

2014 年 11 月亞馬遜發(fā)布了 Echo 智能音箱,2015 年 Echo 的出貨量達(dá)到 250 萬臺(tái),2016 年達(dá)到 520 萬臺(tái),超越 Sonos 成為行業(yè)霸主。在 Google Home 推出之前,亞馬遜 Echo 占據(jù)智能音箱市場(chǎng) 99%的份額。


Google Home 重拳出擊,自 2016 年 11 月發(fā)售到今年 4 月,已成功從亞馬遜“壟斷”格局中,搶下了 23.8%的市場(chǎng)份額。當(dāng)然,亞馬遜也做出了反擊,比如發(fā)布 Echo Dot 2 代、在今年 7 月的 Prime 會(huì)員日進(jìn)行了史無前例的大降價(jià)。

當(dāng)下,智能音箱的戰(zhàn)場(chǎng)中已不僅僅是音箱個(gè)體的競(jìng)爭(zhēng),已蔓延到整個(gè)生態(tài)系統(tǒng)。有分析機(jī)構(gòu)將智能音箱競(jìng)爭(zhēng)升級(jí)分為四個(gè)階段,即音箱個(gè)體(單點(diǎn)戰(zhàn)役)、音箱品類(戰(zhàn)局較量)、家庭場(chǎng)景設(shè)備(多線占據(jù))、全場(chǎng)景語(yǔ)音設(shè)備(全面戰(zhàn)爭(zhēng))。

?

當(dāng)然,這場(chǎng)生態(tài)戰(zhàn)役還可以從另一個(gè)維度來解讀,即構(gòu)成智能音箱三個(gè)部分硬件、算法和內(nèi)容。與非網(wǎng)本月《封面故事》專題圍繞智能語(yǔ)音的調(diào)查采訪中了解到,如今我國(guó)廠商在這三個(gè)領(lǐng)域皆有滲透。當(dāng)然,終端才是最大的狂歡場(chǎng),據(jù)有關(guān)數(shù)據(jù)顯示,深圳某條街道上智能音箱的硬件生產(chǎn)商就有上百家。

與 Echo 國(guó)外大賣形成鮮明對(duì)比,與廠商的熱情參與形成鮮明對(duì)比,智能音箱卻難以吊足中國(guó)市場(chǎng)的胃口,消費(fèi)者不感冒、不買單。這背后的原因首先是消費(fèi)習(xí)慣的差異,歐美家庭音箱的家庭普及率高達(dá) 85%,而國(guó)內(nèi)卻不足 20%;其次,技術(shù)與應(yīng)用層面的差異,因此叮咚音箱與 Echo 相比銷量會(huì)有巨大差距。

同時(shí),值得注意的一點(diǎn)是 Echo 早早的開放了自己的語(yǔ)音系統(tǒng),系統(tǒng)開放帶來更多的第三方應(yīng)用。Echo 的目標(biāo)不僅僅打造一個(gè)智能音箱而是一個(gè)平臺(tái),越來越多的第三方應(yīng)用接入、越來越多的用戶使用智能音箱連接并控制家中的設(shè)備。

智能音箱 2.0 時(shí)代
在本期《封面故事》采訪中,全志科技智慧家居事業(yè)部總經(jīng)理陳風(fēng)表示,現(xiàn)階段的技術(shù)基本滿足了人們對(duì)智能語(yǔ)音的需求,而最大的問題就是性價(jià)比。

聲智科技副總裁李智勇恰提出了利用第二代智能音箱架構(gòu)大幅提升性價(jià)比的方案,他表示:小米智能音箱之前的各種智能音箱軟硬架構(gòu)上都和 Amazon Echo 高度相似,也就是說整個(gè)智能音箱行業(yè)都在學(xué)習(xí)亞馬遜五六年前為智能音箱設(shè)定的架構(gòu)(特征是麥克風(fēng)陣列板和主控板是分離的),而小米+聲智的方案與此不同,可看作智能音箱第二代架構(gòu),此變化推動(dòng)了終端產(chǎn)品性價(jià)比的大幅提升。據(jù)業(yè)內(nèi)消息,亞馬遜第二代產(chǎn)品也將采用同種架構(gòu),此架構(gòu)很可能一統(tǒng)未來智能音箱的天下,其它類方案(比如導(dǎo)入單獨(dú) DSP 做信號(hào)處理的)將失去生存空間。

智能語(yǔ)音有哪些大山要跨越
前面也提到智能語(yǔ)音背后是硬件、算法、內(nèi)容三大要素的支撐。

?

硬件
硬件部分芯片與麥克風(fēng)陣列是核心部件。市場(chǎng)上支持語(yǔ)音交互與識(shí)別的芯片很多。然而,全志科技陳風(fēng)卻表示:市場(chǎng)上沒有一款專為智能語(yǔ)音而生的芯片。因此,當(dāng)下的語(yǔ)音技術(shù)還只在算法階段。一類是成本較低的傳統(tǒng)語(yǔ)音模式識(shí)別技術(shù),通過波形比較、波形匹配以及特征化實(shí)現(xiàn);另一類是基于 AI 技術(shù)的,由于適應(yīng)性好,可做到更加精準(zhǔn)地識(shí)別。只要芯片支持音頻輸入功能和對(duì)應(yīng)的運(yùn)算性能即可,比如 CPU 能夠達(dá)到 ARM 雙核 1.2G 就可滿足語(yǔ)音識(shí)別的要求,但稱之為專用的智能語(yǔ)音芯片并不嚴(yán)謹(jǐn)。

全志 R16、意法半導(dǎo)體 STM32 通用控制系列就被應(yīng)用到了智能語(yǔ)音的方案中。當(dāng)然,行業(yè)里面正在研發(fā)專用的語(yǔ)音芯片。

麥克風(fēng)陣列是聲音的物理入口,技術(shù)包括噪聲抑制、混響消除、回聲抵消、聲源測(cè)向、波束形成、陣列增益、模型匹配等,發(fā)展趨勢(shì)是小型化、低成本化和多人識(shí)別模式。

算法
算法方面,主要包括語(yǔ)音檢測(cè)、降噪、去混響和回聲消除等傳統(tǒng)音箱和通訊工具也需要具備的基本算法。智能音箱的關(guān)鍵算法是喚醒、語(yǔ)音識(shí)別、自然語(yǔ)言理解、對(duì)話管理、自然語(yǔ)言生成和文語(yǔ)轉(zhuǎn)換等算法。


語(yǔ)音識(shí)別的目的是將語(yǔ)音信號(hào)轉(zhuǎn)化為文本,目前,語(yǔ)音識(shí)別技術(shù)相對(duì)成熟?;诮鼒?chǎng)信號(hào)的、受控環(huán)境(低噪聲、低混響)下的標(biāo)準(zhǔn)語(yǔ)音識(shí)別能夠達(dá)到很高的水平。然而在智能音箱開放性的真實(shí)環(huán)境或者說收眾多因素影響的遠(yuǎn)場(chǎng)環(huán)境,需要結(jié)合前端信號(hào)處理一起來優(yōu)化。


聲紋識(shí)別是根據(jù)語(yǔ)音波形反映出的個(gè)人生理和行為特征的語(yǔ)音參數(shù),并以此來識(shí)別說話者的身份?,F(xiàn)實(shí)中,該識(shí)別的準(zhǔn)確率并不如指紋、虹膜識(shí)別。這也是智能語(yǔ)音更高“智能”形態(tài)的表現(xiàn)特征。

綜合而言,智能語(yǔ)音技術(shù)的瓶頸在于以下兩點(diǎn) :
第一個(gè)問題是遠(yuǎn)場(chǎng)環(huán)境復(fù)雜,夾雜噪音、混響、自噪聲等,容易導(dǎo)致機(jī)器端“聽不清”,從而影響后續(xù)一系列操作。解決了這個(gè)問題,偏命令控制的終端便能帶來良好的用戶體驗(yàn);

第二個(gè)問題是更深層次的智能問題,真正的智能需要實(shí)現(xiàn)語(yǔ)義的突破、需要聲音與視覺的融合,這樣的方案才更適合做擬人形態(tài)的機(jī)器人

目前,各硬件廠商都停留在如何解決第一個(gè)瓶頸并做到更好用戶體驗(yàn)的階段。ADI 在硬件中嵌入了機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法,因此可以高效而準(zhǔn)確地捕獲語(yǔ)音命令;意法半導(dǎo)體將 SNR 提高到 65~67dB、 AOP 提高到 135dBSPL,以及在麥克風(fēng) ASIC 電路中加入抗干擾的設(shè)計(jì)等;CEVA 通過降噪、麥克風(fēng)陣列波束成形、揚(yáng)聲器跟蹤、回聲消除器、始終聆聽喚醒詞和嵌入式(非基于云端)語(yǔ)音指令實(shí)現(xiàn)。

未來,智能語(yǔ)音無處不在
探其究竟,智能語(yǔ)音落地背后的驅(qū)動(dòng)力是什么?與非《封面故事》在采訪調(diào)查中也找到了這個(gè)問題的答案:
- 解放雙手
- 實(shí)現(xiàn)了功能入口扁平化
- 趣味性

我們不妨先來看看智能語(yǔ)音的發(fā)展歷程。

第一階段,20 世紀(jì) 50-70 年代,技術(shù)萌芽階段。貝爾實(shí)驗(yàn)室、普林斯頓大學(xué)等科研機(jī)構(gòu)做了大量的研究,進(jìn)行技術(shù)開發(fā);

第二階段,20 世紀(jì) 80 年代,技術(shù)突破階段;

第三階段,20 世紀(jì) 80 年代至 21 世紀(jì)初,進(jìn)入產(chǎn)業(yè)化階段;

第四階段,2010 年至今,快速應(yīng)用階段。智能語(yǔ)音技術(shù)已經(jīng)深入用戶生活之中。

?

智能語(yǔ)音技術(shù)的發(fā)展并非一朝一夕,所以在技術(shù)層面已具有根基,正如《封面故事》調(diào)查,現(xiàn)有的硬件與方案是可以滿足當(dāng)下智能語(yǔ)音要求的,但若在性能、成本、智能程度上更進(jìn)一層,仍需繼續(xù)深耕,因?yàn)楫a(chǎn)品的逐級(jí)落地自然就有一個(gè)不斷完善的過程。

智能語(yǔ)音市場(chǎng)是一個(gè)高速增長(zhǎng)的市場(chǎng),2014 年為僅為 45.6 億美元的規(guī)模,2017 年市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到 105 億美,較 2016 年增長(zhǎng) 30%。而中國(guó)市場(chǎng)的增速要高于全球市場(chǎng),2015 年中國(guó)智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到 40.3 億元,較 2014 年增長(zhǎng) 41.0%,2016 年中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到 59 億元,預(yù)計(jì) 2017 年中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模將超過 100 億元。遠(yuǎn)遠(yuǎn)高于全球市場(chǎng)增速。

隨著人工智能的發(fā)展和深度學(xué)習(xí)技術(shù)的使用,語(yǔ)音識(shí)別準(zhǔn)確率已經(jīng)達(dá)到了 95%以上。計(jì)算機(jī)智能終端的界面正在從“鍵盤+鼠標(biāo)”變?yōu)椤胞溈孙L(fēng)+按鈕”,智能語(yǔ)音帶來的交互新體驗(yàn)正在滲透。

縱觀“Touch 1.0(鍵盤)——Touch 2.0(鼠標(biāo))——Touch 3.0(觸屏)——Touch 4.0(語(yǔ)音)”交互發(fā)展史,每一次交互模式的變革都是產(chǎn)業(yè)的重新洗牌。

如今,智能語(yǔ)音首先在智能音箱生根落地,而未來,智能語(yǔ)音必將以交互的形式出現(xiàn)在各個(gè)領(lǐng)域,家電、家居、汽車、工業(yè)等等。據(jù)調(diào)研機(jī)構(gòu)數(shù)據(jù),預(yù)計(jì)到 2019 年,智能語(yǔ)音在市場(chǎng)規(guī)模超 1500 億美元的智慧家庭領(lǐng)域的滲透率將達(dá) 12%。

那么,除了智能音箱,語(yǔ)音交互會(huì)首先在哪些領(lǐng)域落地呢?

本次《封面故事》得出的結(jié)論是:智慧家庭類產(chǎn)品,因?yàn)樵擃惍a(chǎn)品可簡(jiǎn)單快捷地引入智能家居控制系統(tǒng),輔助用戶進(jìn)行高效便捷的控制。汽車將是智能語(yǔ)音爆發(fā)的大市場(chǎng),但由于領(lǐng)域產(chǎn)品周期等原因,后稍晚于智能語(yǔ)音在家居類上的普及。

與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

與非網(wǎng)編輯,網(wǎng)名小老虎。通信工程專業(yè)出身,喜歡混跡在電子這個(gè)大圈里。曾經(jīng)身無技術(shù)分文,現(xiàn)在可以侃侃電子圈里那點(diǎn)事。喜歡和學(xué)生談?wù)勑那椤⒘牧睦硐?,喜歡和工程師談?wù)勆?、聊聊工作。不求技術(shù)“上進(jìn)”,只求結(jié)交“貴圈”的朋友!