?
臨近 2017 年末,國內(nèi)各大科技媒體開始各種形式的年終盤點(diǎn),而大家都避不開的關(guān)鍵詞非 AI 莫屬。經(jīng)歷了前幾年 VR、無人機(jī)等技術(shù)從熱炒概念到落地的不溫不火后,電子產(chǎn)業(yè)似乎終于找到了一個(gè)興奮點(diǎn),而且這個(gè)興奮點(diǎn)有著太多應(yīng)用場景的可能性?;叵脒@幾年 AI 概念爆發(fā)的起點(diǎn),這樣一款終端產(chǎn)品不容忽視 -- 智能音箱,隨著眾多科技大佬包括亞馬遜,谷歌、BAT、京東、小米、聯(lián)想等的加入,正是這款消費(fèi)產(chǎn)品讓 AI 概念在實(shí)際應(yīng)用場景中找到了首個(gè)落地點(diǎn)。雖然據(jù) GFK 在 11 月份發(fā)布的數(shù)據(jù),這一年里智能音箱在國內(nèi)市場的實(shí)際銷量可能只有 35 萬臺(tái),遠(yuǎn)未達(dá)到預(yù)期,但這不妨礙智能音箱背后的語音交互這種 AI 技術(shù)的燃點(diǎn)被觸發(fā),可以預(yù)見,未來幾年語音交互將在越來越多的終端產(chǎn)品和應(yīng)用場景中出現(xiàn)。
談到語音交互技術(shù),這里面涉及語音合成、語音識(shí)別、交互界面、麥克風(fēng)陣列和語義理解等多個(gè)技術(shù)分支,每一個(gè)分支還有很大的技術(shù)提升空間。
同時(shí)在語音交互技術(shù)領(lǐng)域,亞馬遜以及國內(nèi)的科大訊飛逐漸成為技術(shù)領(lǐng)導(dǎo)者,思必馳、聲智科技、海知科技等科技新貴還在不斷涌現(xiàn)。而隨著一些互聯(lián)網(wǎng)公司包括 BAT、京東、小米等也開始部署和開發(fā)自己的語音交互技術(shù),未來幾年內(nèi)這一領(lǐng)域的市場競爭格局仍存在很大的變數(shù)。
語音交互還有哪些技術(shù)課題需要攻關(guān)?不同玩家在做大市場時(shí)都有怎樣的布局和玩法?未來 BAT 等互聯(lián)網(wǎng)企業(yè)和現(xiàn)有技術(shù)提供商之間將是怎樣的一種關(guān)系?帶著這些問題,與非網(wǎng)記者于近日采訪了思必馳公司 CMO 龍夢竹女士。
思必馳公司 CMO 龍夢竹
語音識(shí)別、語義理解還有哪些事情要做
上面提到語音交互技術(shù)涉及多個(gè)技術(shù)分支,大廠如亞馬遜和科大訊飛基本上全部都自己來開發(fā),其他大多企業(yè)則依自己的優(yōu)勢在不同技術(shù)分支上下功夫。
單就思必馳而言,龍夢竹介紹,其核心技術(shù)有 5 大方向,包括語音識(shí)別、語音合成、語音識(shí)別++、智能對(duì)話和語義理解。該公司的優(yōu)勢在于針對(duì)垂直的行業(yè)市場包括車載、家居和機(jī)器人方向提供語音交互解決方案。針對(duì)不同的應(yīng)用場景,龍夢竹表示,這其中語音交互的底層算法是通用的,都需要通過大數(shù)據(jù)算法對(duì)音頻進(jìn)行識(shí)別和處理,不同之處在于應(yīng)用場景不同,具體的工程化設(shè)計(jì)就不同,這里面聲場的遠(yuǎn)近,環(huán)境噪聲來源和干擾等都有所不同,而具體到語義理解,不同的應(yīng)用場景會(huì)有很大的不同,需要設(shè)備給出的回復(fù)也就不同,這其中最大的挑戰(zhàn)還是對(duì)話的過程和場景。
龍夢竹提到,判斷語音識(shí)別技術(shù)的準(zhǔn)確度和正確率,業(yè)內(nèi)通常有字識(shí)別率、詞識(shí)別率和句識(shí)別率幾個(gè)指標(biāo),其中字識(shí)別率是在一些比賽中會(huì)用到,通常大家考慮的是詞識(shí)別率,句識(shí)別率則是對(duì)語義理解而言。同時(shí)針對(duì)大家關(guān)注較多的“語音喚醒”,也有喚醒率和誤喚醒率這兩個(gè)特性,而她也坦言,實(shí)際上因?yàn)檎Z音交互技術(shù)的指標(biāo)相對(duì)復(fù)雜,受不同環(huán)境和外界因素的影響較大,很難有一個(gè)真正客觀的評(píng)判標(biāo)準(zhǔn)。
此前思必馳首席科學(xué)家俞凱在一次活動(dòng)中也提到,語音交互技術(shù)從對(duì)話的層面,需要區(qū)分的是問答、閑聊還是多輪對(duì)話的形式,不同的對(duì)話模式,設(shè)備需要做出的反饋也不同,要通過不同的算法優(yōu)化來實(shí)現(xiàn),“問答基本上是一問一答,你說一句它會(huì)給你一個(gè)答案,偶爾會(huì)帶有一點(diǎn)上下文,這并不是真正意義上多輪的東西;閑聊,比如微軟小冰,是你不停的說,它就不停的跟你聊天。閑聊的準(zhǔn)則就是以聊的時(shí)間來定義的,但不同于問答,這里面是沒有什么目標(biāo)意義的,所以閑聊要考慮如何把一些比較有趣的東西融入進(jìn)去;最后一類是任務(wù)型的多輪對(duì)話,這類對(duì)話是要有比較扎實(shí)的數(shù)學(xué)基礎(chǔ)的,把對(duì)話看做是一個(gè)序列決策過程?!?/p>
針對(duì)不同的對(duì)話形式和應(yīng)用場景,包括思必馳在內(nèi)的語音技術(shù)公司還有很多工作要做。
?
DUI 是要做些什么
這幾年進(jìn)入語音交互包括語音識(shí)別和自然語言處理領(lǐng)域的企業(yè)眾多,除了思必馳和已上市的科大訊飛,還包括聲智科技、海知智能、普強(qiáng)信息、云知聲、智齒科技、三角獸等,就像 AI 的其他領(lǐng)域一樣,蜂擁而入的科技企業(yè)讓整個(gè)產(chǎn)業(yè)形成一定的泡沫,肯定要經(jīng)過一個(gè)優(yōu)勝劣汰的過程。
為了在競爭中成為優(yōu)勝的那部分,資本、技術(shù)、生態(tài)、市場這幾大因素對(duì)每個(gè)玩家而言都至關(guān)重要。
近兩年語音技術(shù)公司的融資情況
就思必馳而言,今年其在產(chǎn)品、業(yè)務(wù)上一個(gè)大的調(diào)整是在 9 月份推出了一個(gè)開放的 DUI 平臺(tái),全稱為 Dialogue User Interface,基于 Dialogue 為核心,這里面思必馳專注于垂直場景,以任務(wù)式對(duì)話為核心,兼具閑聊與問答功能,打造人性化交互。作為一個(gè)全鏈路智能對(duì)話開放平臺(tái),DUI 提供的,不僅是基于思必馳智能語音語言技術(shù)的對(duì)話功能,更包括開發(fā)者在定制對(duì)話系統(tǒng)時(shí)所需要的綜合服務(wù),如 GUI 定制、版本管理、私有云部署等,讓開發(fā)者可以完全依據(jù)需求隨心所欲定制對(duì)話交互系統(tǒng)。
“DUI 平臺(tái)的受眾包括終端品牌商和技能開發(fā)者。技能開發(fā)者可以將自己的語音交互技術(shù)和產(chǎn)品放到 DUI 平臺(tái)的技能商店里,而品牌商可以利用 DUI 平臺(tái)提供的底層技術(shù)開發(fā)自己的產(chǎn)品,或者在技能商店中選購自己需要的功能模塊進(jìn)行快速集成?!饼垑糁襁@樣介紹 DUI 平臺(tái)。她提到,以往思必馳提供的 2B 服務(wù)多是項(xiàng)目制的定制化開發(fā),對(duì)人員投入要求高,投入產(chǎn)出比相對(duì)較低,這會(huì)讓他們只能把精力用于服務(wù)一些大客戶。2013 年對(duì)話工場推出后,思必馳嘗試做 SDK,讓客戶做二次開發(fā),逐漸采用開放的模式。到了 2015 年,思必馳做到將一些底層 SDK 做好,針對(duì)不同的應(yīng)用快速開發(fā)集成?,F(xiàn)在有了 DUI 平臺(tái),思必馳將所有能開放的技術(shù)都開放出來,做好不同模塊的基礎(chǔ)集成,并提供技能包。同時(shí)那些思必馳自己做不了的部分,讓其他語音技術(shù)公司以及開發(fā)者一起參與進(jìn)來,通過技能商店的方式搭建一個(gè)完整的產(chǎn)業(yè)鏈。用龍夢竹的話說,這是一個(gè)“從提供種子,到種菜園提供半成品,最后到中央廚房直接提供成型的菜品”的過程。
按照思必馳的構(gòu)想,DUI 儼然是一個(gè)開放的生態(tài),除了上面提到的技能開發(fā)者,因?yàn)楦急伛Y的技術(shù)可以形成很好的互補(bǔ),包括聲智科技、海知智能等這些同樣是語音技術(shù)的提供商也可以把 DUI 作為一個(gè)渠道和平臺(tái)參與其中,為終端用戶提供一種一站式的選擇和服務(wù)。龍夢竹介紹,未來其所有技術(shù)、產(chǎn)品將全部遷移到 DUI 平臺(tái)上,“9 月上線以來,DUI 平臺(tái)上的開發(fā)者有近 4000 人。目前公司負(fù)責(zé) DUI 平臺(tái)開發(fā)的有 100 多人,作為公司未來的戰(zhàn)略方向,我們對(duì) DUI 的投入是長期的,除了底層技術(shù),還需要不斷提高工程化的能力,包括跟別人的配合,為開發(fā)者提供大數(shù)據(jù)監(jiān)測、可視化、里程碑管理等功能,這個(gè)平臺(tái)還在不斷升級(jí)、完善中,我們會(huì)根據(jù)不同項(xiàng)目的落地進(jìn)行動(dòng)態(tài)調(diào)整。”
談到當(dāng)前的難點(diǎn)和挑戰(zhàn),龍夢竹坦言,目前還在市場教育期,要讓大家了解 DUI 平臺(tái)都能幫助他們做些什么,它有哪些功能,解決市場接受度的問題。
具體到盈利模式,龍夢竹表示將設(shè)置一個(gè)免費(fèi)門檻,用戶超過一定的調(diào)用頻次才開始收費(fèi)。除此之外,思必馳也可以提供付費(fèi)的定制化開發(fā)服務(wù)。
?
?
未來競爭格局,與 BATJ 等互聯(lián)網(wǎng)公司的關(guān)系將往何處去
“語音識(shí)別基本已經(jīng)形成門檻,再進(jìn)入的可能性不大,很多做語音技術(shù)和設(shè)備的公司都采用思必馳的語音識(shí)別技術(shù)。這涉及到一個(gè)時(shí)間成本的問題,我們前面已經(jīng)花了幾年時(shí)間做的比較成熟了,后來者如果再花上幾年時(shí)間來做這塊,起點(diǎn)已經(jīng)不同,對(duì)他們來說也沒有什么意義。相對(duì)來說,新入者多集中在語義理解的后續(xù)處理環(huán)節(jié),前面語音識(shí)別將音頻轉(zhuǎn)換為文字,后續(xù)語義處理的信號(hào)鏈還比較長,這里還有些機(jī)會(huì)?!闭劶笆袌龈偁幐窬?,龍夢竹如是說。
對(duì)目前 BATJ 和小米等互聯(lián)網(wǎng)公司也紛紛進(jìn)入語音技術(shù)領(lǐng)域,龍夢竹表示,未來會(huì)有競爭,但也會(huì)有合作。考慮到互聯(lián)網(wǎng)公司的財(cái)大氣粗可以招攬到大批高端技術(shù)人才以及對(duì)數(shù)據(jù)資源的掌握,未來不可避免會(huì)對(duì)科大訊飛、思必馳這類技術(shù)公司產(chǎn)生一定的沖擊,與非網(wǎng)記者從京東公司獲得的信息是,京東此前在語音技術(shù)方面一直和科大訊飛合作,包括國內(nèi)智能音箱銷量冠軍的叮咚就是京東和科大訊飛合作的產(chǎn)品,而今年開始京東已經(jīng)開始拋開科大訊飛全面自研語音技術(shù)。
但也不可否認(rèn),未來智能硬件和語音交互的市場體量是巨大的,尤其是存在很多細(xì)分和垂直市場,可容納的玩家更多。用龍夢竹的話說,在這些領(lǐng)域,考驗(yàn)的是企業(yè)理解客戶需求、產(chǎn)品定義、操作系統(tǒng)匹配、技術(shù)支持以及工程化等方方面面的能力,不是幾家公司就能全部完成的,也不是每家互聯(lián)網(wǎng)企業(yè)都有這方面成功的基因。
對(duì)于思必馳而言,它的一個(gè)優(yōu)勢是還是一種創(chuàng)業(yè)的姿態(tài),能夠根據(jù)市場和技術(shù)趨勢及時(shí)調(diào)整自己的方向,做出靈活應(yīng)對(duì)。龍夢竹介紹,目前思必馳在橫向和縱向上完成了幾個(gè)重要的戰(zhàn)略布局。橫向上,通過 DUI 平臺(tái)的搭建,讓自己從過去的單打獨(dú)斗向擴(kuò)展生態(tài)、提供平臺(tái)化服務(wù)方向發(fā)展;縱向上,思必馳在 2016 年正式成立了馳星創(chuàng)投,得到了元禾資本、富士康、清華控股等 LP 的支持,現(xiàn)旗下?lián)碛?2 億元天使基金和 10 億元成長基金,專注投資人工智能和智能交互產(chǎn)業(yè)的早期項(xiàng)目。目前已孵化并投資了車蘿卜、慧聲、先聲教育、AITEK、SIGMOID、愛醫(yī)聲、RT-Thread 等 9 家企業(yè),將自己的觸角延伸到資本和 AI 技術(shù)的應(yīng)用領(lǐng)域。
“因?yàn)轳Y星創(chuàng)投是完全獨(dú)立于思必馳運(yùn)營,未來思必馳主體部分的主要盈利點(diǎn)是 DUI 平臺(tái),同時(shí)我們會(huì)跟一些大企業(yè)合作成立合資子公司?!饼垑糁癖硎?。
顯然,擺在思必馳面前的選擇還很多。
?
更多有關(guān)語音識(shí)別的資訊,歡迎訪問 與非網(wǎng)語音識(shí)別專區(qū)
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!