加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 對話式AI奔向藍海的關(guān)鍵是什么?
    • 魔杖選擇了巫師,還是巫師定義了魔杖?
    • 虛擬語音助理市場高速增長
    • 結(jié)語
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

讓智能音箱更懂你,對話式AI迎來交互革命

原創(chuàng)
2021/02/26
165
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

智能音箱讓我們看到了語音交互帶來的可能性,而隨著高質(zhì)量、實時的人機對話技術(shù)的發(fā)展,我們與智能設(shè)備應(yīng)用程序的交互方式將會被徹底顛覆。不論是智能音箱、語音助手、智能客服,還是未來在智能家居智能汽車、機器人、工業(yè)物聯(lián)網(wǎng)設(shè)備等領(lǐng)域,一個更為廣闊的藍海市場正在開啟。

更為智能的人機交互的重要基礎(chǔ)是什么?正是對話式AI,這也是為什么它成為近年來科技巨頭、AI廠商、互聯(lián)網(wǎng)廠商的必爭之地。IDC數(shù)據(jù)顯示,在中國市場,對話式AI市場規(guī)模預(yù)計在2023年達到約18.6億美元,2019-2023年的年均復(fù)合增長率(CAGR)為34.0%。

對話式AI奔向藍海的關(guān)鍵是什么?

對話式AI是AI領(lǐng)域的集大成者,融合了語音識別、語義理解、自然語言處理、語音合成等多種解決方案,能夠為開發(fā)者提供具備識別、理解及反饋能力的開放式平臺的技術(shù),使機器與人能夠進行自然對話。

正如開篇所說,高質(zhì)量的、實時的對話是通往未來的關(guān)鍵,不夠智能、延時太長的“智障”產(chǎn)品是無法忍受的。這也恰好是語音交互當(dāng)前的瓶頸所在,智能音箱作為首個進入尋常人家的智能語音硬件載體,完成了智能語音助手的消費者認知和用戶交互習(xí)慣培養(yǎng),但距離真正智能的人機對話還有很長的路要走。

一次完整的人機對話大致可以分為四步:將用戶語音轉(zhuǎn)換為文本,理解文本含義,搜索符合語境的最佳應(yīng)答,最后使用文本轉(zhuǎn)語音工具提供應(yīng)答。舉個例子,比如用戶說了一句英文,希望機器能夠翻譯成中文。機器首先需要把口語轉(zhuǎn)化成文字,也就是進行語音內(nèi)容的抽??;然后再把它放到一個語音模型中,找出各詞匯之間的關(guān)系,理解文本的含義;一旦機器理解了意思之后,需要在語言模型中找出合適的語言;最后才能給出一個完整的回答。

?
這僅是在特定語境下的一次簡單對話。如果真要讓機器達到人類的語言交流程度,在任何語境下,不論是內(nèi)涵笑話,還是特定文化背景中的“?!被蛭淖钟螒颍寄軜O為巧妙地進行交談,對機器無疑是極大的挑戰(zhàn)——它要在極短的時間內(nèi)完成極為復(fù)雜的計算,才能達到上述效果。

這就涉及到需要很多模型同時發(fā)揮作用、多種多樣的神經(jīng)網(wǎng)絡(luò)提供支持,而且這些模型都很龐大且復(fù)雜。這就帶來了另一個問題:模型越大,用戶提問與 AI 應(yīng)答之間的延遲就越長。如果延時超出300ms閾值,對話要么不自然,要么已經(jīng)失去了回答的意義。

這也是目前為止,對話式AI的兩難。在開發(fā)語言處理神經(jīng)網(wǎng)絡(luò)以支持實時語音應(yīng)用程序的過程中,開發(fā)人員被迫面臨著一種權(quán)衡:要實現(xiàn)快速響應(yīng),必須犧牲響應(yīng)質(zhì)量;要追求智能響應(yīng),則不可避免會減慢速度。

魔杖選擇了巫師,還是巫師定義了魔杖?

如果說對話式AI是改變智能語音應(yīng)用的魔杖,那么,如何將它的效果發(fā)揮到最大還要看巫師的能力。運行超大模型和通過豐富的軟件、庫加速訓(xùn)練優(yōu)化模型是英偉達的長板,這些長板在對話式AI領(lǐng)域形成合力。

美國當(dāng)?shù)貢r間2月25日,英偉達Jarvis應(yīng)用框架公測版正式發(fā)布。這對開發(fā)人員來說是一個重大進展,可以借助英偉達GPU加速的完整的軟件堆棧和工具,在運行大型且復(fù)雜的 AI 模型與更好的實時性方面得到兼顧。

發(fā)展對話式AI來源于黃仁勛對這一市場的基本判斷,他在發(fā)布Jarvis時說過,“隨著應(yīng)用程序具備了通過感知細微差別和上下文來理解和交流的能力,對話式AI將成為未來許多行業(yè)的關(guān)鍵核心,能夠幫助醫(yī)療、金融服務(wù)、教育和零售行業(yè)以快速和準確的方式提供自動化的支持服務(wù)?!?/p>

對于企業(yè)來說,為了給客戶提供個性化的交互體驗,他們需要使用針對自身產(chǎn)品和客戶需求的數(shù)據(jù)訓(xùn)練其語言應(yīng)用。但是,從頭開始構(gòu)建一項服務(wù)需要深厚的AI專業(yè)知識、大量數(shù)據(jù)和計算資源來訓(xùn)練模型,以及能夠使用新數(shù)據(jù)對模型進行定期更新的軟件。如果能夠提供一定的預(yù)訓(xùn)練模型、以及端到端的深度學(xué)習(xí)方案則有助于解決這些難題。

為了打造這支魔杖,英偉達已經(jīng)蓄力多年。近年來,我們陸陸續(xù)續(xù)看到它在這方面的進展:訓(xùn)練出世界上最大的語言模型、加速GPU在語言理解性能方面的提升、幫助AI從業(yè)者創(chuàng)建大型語言模型、開源相關(guān)代碼……

最新宣布的Jarvis公測版就是這些創(chuàng)新的集大成者,它是一個全面的框架,包含使用最新深度學(xué)習(xí)模型的ASR、NLU、TTS和計算機視覺的GPU優(yōu)化服務(wù)。
?

英偉達對話式AI高級工程總監(jiān)Janathan Cohen介紹,Jarvis包括用于構(gòu)建對話式AI系統(tǒng)整個生命周期的端到端工具包,以及在DGX SuperPOD上已經(jīng)訓(xùn)練了超過10萬小時的預(yù)訓(xùn)練模型。定制化服務(wù)也是一大特色:通過Transfer Learning Toolkit(TLT)可實現(xiàn)“零代碼”的再訓(xùn)練,降低了企業(yè)的應(yīng)用壁壘;同時,基于PyTorch的開源工具包NeMo,使得企業(yè)能夠基于自己的數(shù)據(jù)對這些模型進行微調(diào),還可使用TensorRT進行推理優(yōu)化,通過NGC(NVIDIA GPU優(yōu)化的軟件目錄)上的Helm圖表,在云和邊緣的不同服務(wù)器上高效部署模型,為更大規(guī)模的對話式AI做好準備。

Janathan Cohen表示,構(gòu)建對話式AI系統(tǒng)和應(yīng)用程序并不是一件容易的事情,如果是為數(shù)據(jù)中心量身定制一個組件來滿足企業(yè)的需要就更難了。因為針對特定領(lǐng)域應(yīng)用程序的部署,通常需要幾個周期的重新訓(xùn)練、微調(diào)和模型部署,直到模型滿足要求為止。為了解決這些問題,英偉達目前可以提供的支持主要包括三方面:通過遷移學(xué)習(xí)工具包來加速AI模型的訓(xùn)練和微調(diào);Jarvis簡化了模型的部署和推理;通過英偉達GPU優(yōu)化的軟件目錄集合了所有預(yù)訓(xùn)練的對話式AI模型,便于企業(yè)用戶進一步微調(diào)或部署。

Jarvis目前可提供三種服務(wù),語音識別(Speech Recognition)、語音合成(Speech Synthesis)和自然語言理解(NLU)。據(jù)了解,語音和語言組件已發(fā)布,下一步會增加計算機視覺和其他模態(tài)的組件。

多模態(tài)的融合將是對話式AI未來的主要方向,將自動語音識別的關(guān)鍵元素與實體和意圖相結(jié)合,才能夠滿足新用例對高吞吐量和低延遲的需求。對于視覺類應(yīng)用,Jarvis 具有用于人員檢測和跟蹤、手勢、唇部活動、注視、以及身體姿勢檢測的模塊。通過并行處理的方式,能夠?qū)崟r處理多個數(shù)據(jù)流,提供更自然的交互。

虛擬語音助理市場高速增長

虛擬語音助理是對話式AI目前應(yīng)用最為成熟的領(lǐng)域之一,不論是自動客服還是數(shù)字助理,這一市場正在高速增長中。

IBM商業(yè)價值研究院 (IBV) 與牛津經(jīng)濟研究院在疫情爆發(fā)之初合作開展了一項全球調(diào)研,99%的受訪企業(yè)表示,通過使用虛擬客服技術(shù)降低了每次聯(lián)系的成本,據(jù)估算每處理一次對話可節(jié)省 5.50 美元的成本,客戶滿意度因此提高了12%,客服滿意度提高了9%,收入增長了3%。再根據(jù)IDC預(yù)計,全球范圍內(nèi),自動客戶服務(wù)代理和數(shù)字助理等對話式AI用例的支出投入,將從2019年的58億美元增長至2023年的138億美元,復(fù)合年增長率將達24%。

英偉達認為,企業(yè)部署虛擬語音助理對開發(fā)人員來說,挑戰(zhàn)主要源于兩方面:一是高質(zhì)量的虛擬助理與最終用戶體驗直接相關(guān),需要能夠準確理解各種語言、方言和專業(yè)術(shù)語,并完成多輪對話。二是高性能和可擴展性是嚴格質(zhì)量要求的一部分。當(dāng)虛擬助理部署到數(shù)億并發(fā)用戶的規(guī)模時,作為性能權(quán)衡的一部分,控制大規(guī)模的延遲成了一項額外的工程挑戰(zhàn)。而Jarvis有望幫助企業(yè)解決這些難題,更為容易地部署和開發(fā)特定功能,這在英偉達的客戶中已經(jīng)呈現(xiàn)出了初步的“雪球效應(yīng)”:?

Voca是東芝、AT&T等全球領(lǐng)先公司的AI虛擬代理公司,Voca公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Alan Bekker表示:“低延遲對于呼叫中心至關(guān)重要。我們的虛擬代理能夠在一秒內(nèi)完成收聽、理解并作出最準確的響應(yīng)?,F(xiàn)在,虛擬代理能夠成功處理70-80%的呼叫,其中包括一般性的客戶服務(wù)請求、付款交易和技術(shù)支持等?!?/p>

Kensho部署了可擴展的機器學(xué)習(xí)和分析系統(tǒng),Kensho AI研究主管Georg Kucsko表示:“使用英偉達深度學(xué)習(xí)技術(shù)推進端到端自動語音識別技術(shù),與不使用AI的傳統(tǒng)方法訓(xùn)練新模型相比,在轉(zhuǎn)錄金融行業(yè)專業(yè)術(shù)語時的準確度得到了明顯提高,無需幾天,只需幾分鐘就能為客戶提供及時信息?!?/p>

Scribe開發(fā)了針對金融行業(yè)和商業(yè)的語音識別解決方案。基于英偉達的對話式AI平臺技術(shù),在處理財報會議和類似財務(wù)音頻方面的準確度,相較于其它的商業(yè)解決方案高出了20%。

平安科技作為Jarvis early access計劃的早期合作伙伴,已經(jīng)通過使用聊天機器人來處理每天數(shù)百萬條的客戶查詢。通過預(yù)訓(xùn)練的模型NeMo和使用Jarvis優(yōu)化的ASR,系統(tǒng)的精確度提高了5%。

結(jié)語

對話式AI正在連接一切。暢想一個未來:當(dāng)你在和智能音箱談?wù)撎鞖鈺r,不僅僅是問“今天多少度?”當(dāng)你說“我好熱”,你的智能音箱會回答:“已經(jīng)為您把空調(diào)調(diào)低2度”。它不止聽懂了你的話、理解了你的意圖,還能執(zhí)行你所期望的操作。

長遠來看,對話式AI其實就是為構(gòu)建更有人情味的AI系統(tǒng)打基礎(chǔ)。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄