在线看日本中文字幕不卡,国产精品国产三级欧美

智能音箱讓我們看到了語音交互帶來的可能性，而隨著高質(zhì)量、實時的人機對話技術(shù)的發(fā)展，我們與智能設(shè)備、應(yīng)用程序的交互方式將會被徹底顛覆。不論是智能音箱、語音助手、智能客服，還是未來在智能家居、智能汽車、機器人、工業(yè)物聯(lián)網(wǎng)設(shè)備等領(lǐng)域，一個更為廣闊的藍海市場正在開啟。

更為智能的人機交互的重要基礎(chǔ)是什么？正是對話式AI，這也是為什么它成為近年來科技巨頭、AI廠商、互聯(lián)網(wǎng)廠商的必爭之地。IDC數(shù)據(jù)顯示，在中國市場，對話式AI市場規(guī)模預(yù)計在2023年達到約18.6億美元，2019-2023年的年均復(fù)合增長率（CAGR）為34.0%。

對話式AI奔向藍海的關(guān)鍵是什么？

對話式AI是AI領(lǐng)域的集大成者，融合了語音識別、語義理解、自然語言處理、語音合成等多種解決方案，能夠為開發(fā)者提供具備識別、理解及反饋能力的開放式平臺的技術(shù)，使機器與人能夠進行自然對話。

正如開篇所說，高質(zhì)量的、實時的對話是通往未來的關(guān)鍵，不夠智能、延時太長的“智障”產(chǎn)品是無法忍受的。這也恰好是語音交互當(dāng)前的瓶頸所在，智能音箱作為首個進入尋常人家的智能語音硬件載體，完成了智能語音助手的消費者認知和用戶交互習(xí)慣培養(yǎng)，但距離真正智能的人機對話還有很長的路要走。

一次完整的人機對話大致可以分為四步：將用戶語音轉(zhuǎn)換為文本，理解文本含義，搜索符合語境的最佳應(yīng)答，最后使用文本轉(zhuǎn)語音工具提供應(yīng)答。舉個例子，比如用戶說了一句英文，希望機器能夠翻譯成中文。機器首先需要把口語轉(zhuǎn)化成文字，也就是進行語音內(nèi)容的抽??；然后再把它放到一個語音模型中，找出各詞匯之間的關(guān)系，理解文本的含義；一旦機器理解了意思之后，需要在語言模型中找出合適的語言；最后才能給出一個完整的回答。

?
這僅是在特定語境下的一次簡單對話。如果真要讓機器達到人類的語言交流程度，在任何語境下，不論是內(nèi)涵笑話，還是特定文化背景中的“?！被蛭淖钟螒颍寄軜O為巧妙地進行交談，對機器無疑是極大的挑戰(zhàn)——它要在極短的時間內(nèi)完成極為復(fù)雜的計算，才能達到上述效果。

這就涉及到需要很多模型同時發(fā)揮作用、多種多樣的神經(jīng)網(wǎng)絡(luò)提供支持，而且這些模型都很龐大且復(fù)雜。這就帶來了另一個問題：模型越大，用戶提問與 AI 應(yīng)答之間的延遲就越長。如果延時超出300ms閾值，對話要么不自然，要么已經(jīng)失去了回答的意義。

這也是目前為止，對話式AI的兩難。在開發(fā)語言處理神經(jīng)網(wǎng)絡(luò)以支持實時語音應(yīng)用程序的過程中，開發(fā)人員被迫面臨著一種權(quán)衡：要實現(xiàn)快速響應(yīng)，必須犧牲響應(yīng)質(zhì)量；要追求智能響應(yīng)，則不可避免會減慢速度。

魔杖選擇了巫師，還是巫師定義了魔杖？

如果說對話式AI是改變智能語音應(yīng)用的魔杖，那么，如何將它的效果發(fā)揮到最大還要看巫師的能力。運行超大模型和通過豐富的軟件、庫加速訓(xùn)練優(yōu)化模型是英偉達的長板，這些長板在對話式AI領(lǐng)域形成合力。

美國當(dāng)?shù)貢r間2月25日，英偉達Jarvis應(yīng)用框架公測版正式發(fā)布。這對開發(fā)人員來說是一個重大進展，可以借助英偉達GPU加速的完整的軟件堆棧和工具，在運行大型且復(fù)雜的 AI 模型與更好的實時性方面得到兼顧。

發(fā)展對話式AI來源于黃仁勛對這一市場的基本判斷，他在發(fā)布Jarvis時說過，“隨著應(yīng)用程序具備了通過感知細微差別和上下文來理解和交流的能力，對話式AI將成為未來許多行業(yè)的關(guān)鍵核心，能夠幫助醫(yī)療、金融服務(wù)、教育和零售行業(yè)以快速和準確的方式提供自動化的支持服務(wù)?！?/p>

對于企業(yè)來說，為了給客戶提供個性化的交互體驗，他們需要使用針對自身產(chǎn)品和客戶需求的數(shù)據(jù)訓(xùn)練其語言應(yīng)用。但是，從頭開始構(gòu)建一項服務(wù)需要深厚的AI專業(yè)知識、大量數(shù)據(jù)和計算資源來訓(xùn)練模型，以及能夠使用新數(shù)據(jù)對模型進行定期更新的軟件。如果能夠提供一定的預(yù)訓(xùn)練模型、以及端到端的深度學(xué)習(xí)方案則有助于解決這些難題。

為了打造這支魔杖，英偉達已經(jīng)蓄力多年。近年來，我們陸陸續(xù)續(xù)看到它在這方面的進展：訓(xùn)練出世界上最大的語言模型、加速GPU在語言理解性能方面的提升、幫助AI從業(yè)者創(chuàng)建大型語言模型、開源相關(guān)代碼……

最新宣布的Jarvis公測版就是這些創(chuàng)新的集大成者，它是一個全面的框架，包含使用最新深度學(xué)習(xí)模型的ASR、NLU、TTS和計算機視覺的GPU優(yōu)化服務(wù)。
?

英偉達對話式AI高級工程總監(jiān)Janathan Cohen介紹，Jarvis包括用于構(gòu)建對話式AI系統(tǒng)整個生命周期的端到端工具包，以及在DGX SuperPOD上已經(jīng)訓(xùn)練了超過10萬小時的預(yù)訓(xùn)練模型。定制化服務(wù)也是一大特色：通過Transfer Learning Toolkit（TLT）可實現(xiàn)“零代碼”的再訓(xùn)練，降低了企業(yè)的應(yīng)用壁壘；同時，基于PyTorch的開源工具包NeMo，使得企業(yè)能夠基于自己的數(shù)據(jù)對這些模型進行微調(diào)，還可使用TensorRT進行推理優(yōu)化，通過NGC（NVIDIA GPU優(yōu)化的軟件目錄）上的Helm圖表，在云和邊緣的不同服務(wù)器上高效部署模型，為更大規(guī)模的對話式AI做好準備。

Janathan Cohen表示，構(gòu)建對話式AI系統(tǒng)和應(yīng)用程序并不是一件容易的事情，如果是為數(shù)據(jù)中心量身定制一個組件來滿足企業(yè)的需要就更難了。因為針對特定領(lǐng)域應(yīng)用程序的部署，通常需要幾個周期的重新訓(xùn)練、微調(diào)和模型部署，直到模型滿足要求為止。為了解決這些問題，英偉達目前可以提供的支持主要包括三方面：通過遷移學(xué)習(xí)工具包來加速AI模型的訓(xùn)練和微調(diào)；Jarvis簡化了模型的部署和推理；通過英偉達GPU優(yōu)化的軟件目錄集合了所有預(yù)訓(xùn)練的對話式AI模型，便于企業(yè)用戶進一步微調(diào)或部署。

Jarvis目前可提供三種服務(wù)，語音識別（Speech Recognition）、語音合成（Speech Synthesis）和自然語言理解（NLU）。據(jù)了解，語音和語言組件已發(fā)布，下一步會增加計算機視覺和其他模態(tài)的組件。

多模態(tài)的融合將是對話式AI未來的主要方向，將自動語音識別的關(guān)鍵元素與實體和意圖相結(jié)合，才能夠滿足新用例對高吞吐量和低延遲的需求。對于視覺類應(yīng)用，Jarvis 具有用于人員檢測和跟蹤、手勢、唇部活動、注視、以及身體姿勢檢測的模塊。通過并行處理的方式，能夠?qū)崟r處理多個數(shù)據(jù)流，提供更自然的交互。

虛擬語音助理市場高速增長

虛擬語音助理是對話式AI目前應(yīng)用最為成熟的領(lǐng)域之一，不論是自動客服還是數(shù)字助理，這一市場正在高速增長中。

IBM商業(yè)價值研究院 (IBV) 與牛津經(jīng)濟研究院在疫情爆發(fā)之初合作開展了一項全球調(diào)研，99%的受訪企業(yè)表示，通過使用虛擬客服技術(shù)降低了每次聯(lián)系的成本，據(jù)估算每處理一次對話可節(jié)省 5.50 美元的成本，客戶滿意度因此提高了12%，客服滿意度提高了9%，收入增長了3%。再根據(jù)IDC預(yù)計，全球范圍內(nèi)，自動客戶服務(wù)代理和數(shù)字助理等對話式AI用例的支出投入，將從2019年的58億美元增長至2023年的138億美元，復(fù)合年增長率將達24%。

英偉達認為，企業(yè)部署虛擬語音助理對開發(fā)人員來說，挑戰(zhàn)主要源于兩方面：一是高質(zhì)量的虛擬助理與最終用戶體驗直接相關(guān)，需要能夠準確理解各種語言、方言和專業(yè)術(shù)語，并完成多輪對話。二是高性能和可擴展性是嚴格質(zhì)量要求的一部分。當(dāng)虛擬助理部署到數(shù)億并發(fā)用戶的規(guī)模時，作為性能權(quán)衡的一部分，控制大規(guī)模的延遲成了一項額外的工程挑戰(zhàn)。而Jarvis有望幫助企業(yè)解決這些難題，更為容易地部署和開發(fā)特定功能，這在英偉達的客戶中已經(jīng)呈現(xiàn)出了初步的“雪球效應(yīng)”：?

Voca是東芝、AT&T等全球領(lǐng)先公司的AI虛擬代理公司，Voca公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Alan Bekker表示：“低延遲對于呼叫中心至關(guān)重要。我們的虛擬代理能夠在一秒內(nèi)完成收聽、理解并作出最準確的響應(yīng)?，F(xiàn)在，虛擬代理能夠成功處理70-80%的呼叫，其中包括一般性的客戶服務(wù)請求、付款交易和技術(shù)支持等?！?/p>

Kensho部署了可擴展的機器學(xué)習(xí)和分析系統(tǒng)，Kensho AI研究主管Georg Kucsko表示：“使用英偉達深度學(xué)習(xí)技術(shù)推進端到端自動語音識別技術(shù)，與不使用AI的傳統(tǒng)方法訓(xùn)練新模型相比，在轉(zhuǎn)錄金融行業(yè)專業(yè)術(shù)語時的準確度得到了明顯提高，無需幾天，只需幾分鐘就能為客戶提供及時信息?！?/p>

Scribe開發(fā)了針對金融行業(yè)和商業(yè)的語音識別解決方案。基于英偉達的對話式AI平臺技術(shù)，在處理財報會議和類似財務(wù)音頻方面的準確度，相較于其它的商業(yè)解決方案高出了20%。

平安科技作為Jarvis early access計劃的早期合作伙伴，已經(jīng)通過使用聊天機器人來處理每天數(shù)百萬條的客戶查詢。通過預(yù)訓(xùn)練的模型NeMo和使用Jarvis優(yōu)化的ASR，系統(tǒng)的精確度提高了5%。

結(jié)語

對話式AI正在連接一切。暢想一個未來：當(dāng)你在和智能音箱談?wù)撎鞖鈺r，不僅僅是問“今天多少度？”當(dāng)你說“我好熱”，你的智能音箱會回答：“已經(jīng)為您把空調(diào)調(diào)低2度”。它不止聽懂了你的話、理解了你的意圖，還能執(zhí)行你所期望的操作。

長遠來看，對話式AI其實就是為構(gòu)建更有人情味的AI系統(tǒng)打基礎(chǔ)。

讓智能音箱更懂你，對話式AI迎來交互革命

對話式AI奔向藍海的關(guān)鍵是什么？

魔杖選擇了巫師，還是巫師定義了魔杖？

虛擬語音助理市場高速增長

結(jié)語

相關(guān)推薦

讓智能音箱更懂你，對話式AI迎來交互革命

對話式AI奔向藍海的關(guān)鍵是什么？

魔杖選擇了巫師，還是巫師定義了魔杖？

虛擬語音助理市場高速增長

結(jié)語

相關(guān)推薦

對話式AI奔向藍海的關(guān)鍵是什么？

魔杖選擇了巫師，還是巫師定義了魔杖？