衡宇 楊凈 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
機(jī)器狗、機(jī)器人領(lǐng)域,又多了一個(gè)新玩家。
以AI知名的科技公司科大訊飛,2022全球1024開(kāi)發(fā)者節(jié)上官宣最新技術(shù)成果和進(jìn)展。
其中之一,就是“AI+四足機(jī)器人”項(xiàng)目,機(jī)器狗:小黑。
沒(méi)錯(cuò),科大訊飛也決定擁有一只機(jī)器狗,還是很新的那種:能沿著臺(tái)階進(jìn)行上坡和下坡動(dòng)作。(現(xiàn)在的大多數(shù)機(jī)器狗還在“模仿動(dòng)作”的初級(jí)仿生階段,只具備基礎(chǔ)的平地行走功能。)
決定養(yǎng)“狗”的互聯(lián)網(wǎng)、AI公司越來(lái)越多了,現(xiàn)在認(rèn)識(shí)一只機(jī)器狗,需要從廠牌開(kāi)始分辨。
小黑的新,不僅在能力上,還在科大訊飛養(yǎng)它的方式上——別人造機(jī)器狗,更多是在做硬件,訓(xùn)練它走路、陪伴。
科大訊飛造機(jī)器狗,更吸睛的故事,聚焦在訓(xùn)練“超腦”上。
機(jī)器人超腦平臺(tái)
科大訊飛如何訓(xùn)?怎么訓(xùn)?現(xiàn)場(chǎng)小黑就來(lái)打了個(gè)樣。
別看外表平平無(wú)奇,但一上陣就懂了。
常規(guī)操作自然就不多說(shuō)了,自主導(dǎo)航上下坡,各種復(fù)雜地形也能穿梭自如,比如草地沙石玻璃路。
還可立即上崗上位,深入多個(gè)場(chǎng)景一線,完成檢查亂堆亂放、車牌人臉識(shí)別、工廠故障巡檢(化工、電力、工業(yè))等任務(wù)。
通常而言,機(jī)器狗技術(shù)無(wú)非感知、控制決策兩個(gè)方面,小黑也同樣如此:
運(yùn)動(dòng)控制:AI+運(yùn)動(dòng)、自主導(dǎo)航、視頻分析、自適應(yīng)步態(tài)等算法。據(jù)官方介紹,他們率先打通了從仿真訓(xùn)練到真機(jī)部署的AI+運(yùn)動(dòng)智能的全鏈條開(kāi)發(fā)。
感知:多模態(tài)多傳感器融合。麥克風(fēng)、喇叭、攝像、氣體傳感器等多傳感器,通過(guò)混合式架構(gòu)和中央決策平臺(tái) 、多傳感器底層核心算法,賦予機(jī)器狗識(shí)別聽(tīng)聲辨味的感知能力。
這一切的一切,都是科大訊飛機(jī)器人超腦平臺(tái)AIBOT所賦予的。于是當(dāng)機(jī)器狗有了“腦”,從已曝光的能力提升中就可見(jiàn)一斑。
比如,實(shí)時(shí)地形自適應(yīng)能力、全局定位搜索能力、地圖構(gòu)建能力以及AI運(yùn)動(dòng)控制能力。
不過(guò)這也并不是機(jī)器人超腦平臺(tái)AIBOT的全部用處。超腦平臺(tái)也并非只是為了馴狗,而是由點(diǎn)及面,既有實(shí)體機(jī)器人又有數(shù)字機(jī)器人,在多個(gè)場(chǎng)景和行業(yè)下的軟硬件一體解決方案。
目前,它已部署在了全新的訊飛開(kāi)放平臺(tái)上。從這張架構(gòu)圖中可以看到,現(xiàn)在訊飛開(kāi)放平臺(tái)核心能力主要包括:能力云AIHUB、交互云AIUI+、模型云AILAB、資產(chǎn)平臺(tái)AIRES、超自動(dòng)化AIRPA、機(jī)器人超腦平臺(tái)AIBOT。
小黑,正是訊飛機(jī)器人超腦平臺(tái)AIBOT其中一個(gè)案例。通過(guò)交互大腦、運(yùn)動(dòng)控制、硬件模組來(lái)快速構(gòu)建機(jī)器人的運(yùn)動(dòng)能力。機(jī)械臂、人形機(jī)器人、仿生、特種等各種機(jī)器人都可以適配。主要有三大特點(diǎn):高性能、高效率、高精度。
高效率:一次建圖覆蓋率90%;
高精度:5cm的定位和建模精度。
在現(xiàn)場(chǎng),科大訊飛消費(fèi)者BG總裁于繼棟還列舉了柔性機(jī)械臂的例子,在賦予機(jī)器人超腦平臺(tái)AIBOT之后,新增了AI+深度視覺(jué)、AI+運(yùn)動(dòng)控制等能力,從而能快速應(yīng)用工業(yè)質(zhì)檢、商業(yè)服務(wù)、遠(yuǎn)程超聲、柔性生產(chǎn)等場(chǎng)景當(dāng)中去。
能力云AIHUB自然不必多說(shuō),AI公司立身之本,再聯(lián)合生態(tài)AI能力,持續(xù)保證穩(wěn)定輸出,今年更是給出了全系列的離線版本。
在今年更新的513項(xiàng)開(kāi)放能力中,以SMART-TTS ,多風(fēng)格多功能語(yǔ)音合成最為典型。
以往語(yǔ)音合成主要用于語(yǔ)音助理和新聞播報(bào)這些場(chǎng)景,但這次在風(fēng)格、場(chǎng)景以及情感上有了新拓展,共有10個(gè)場(chǎng)景可選、11種情感可調(diào)。
交互云AIUI+。不管是虛實(shí)哪一種機(jī)器人,在與人交互時(shí)都面臨著公共場(chǎng)景下的干擾問(wèn)題。典型的難題場(chǎng)景包括同向人聲干擾,而本身以語(yǔ)音見(jiàn)長(zhǎng)的科大訊飛,提出了遠(yuǎn)近場(chǎng)多模語(yǔ)音增強(qiáng)技術(shù),在同向人聲干擾環(huán)境下,識(shí)別準(zhǔn)確率從60.2%到現(xiàn)在提升到了86%以上。
模型云AILAB ,具體場(chǎng)景具體定制。像格式多樣、數(shù)據(jù)稀缺還是價(jià)格敏感的情況,都能為其提供小樣本訓(xùn)練平臺(tái)。5張圖片訓(xùn)練出OCR定制模型,半小時(shí)音頻生成商用發(fā)音人、零成本搭建喚醒詞,了解一下~
而聚焦于數(shù)字世界的生態(tài)上。資產(chǎn)平臺(tái)AIRES,顧名思義就是與內(nèi)容伙伴共建數(shù)字資產(chǎn),比如虛擬人形象、數(shù)字藏品等。超自動(dòng)化AIRPA則是在解決企業(yè)的數(shù)字化轉(zhuǎn)型,包括智能化員工助手、柔性人機(jī)協(xié)同、跨組織無(wú)邊界協(xié)作……
最終,這些能力都透過(guò)實(shí)體機(jī)器人、數(shù)字虛擬人兩種形式逐步深入到各個(gè)行業(yè)與家庭當(dāng)中。
這也正是科大訊飛對(duì)AI新趨勢(shì)的理解。
當(dāng)下隨著元宇宙興起,融合AI與5G,虛擬世界與現(xiàn)實(shí)世界實(shí)現(xiàn)了深層次融合,人機(jī)協(xié)同逐漸人機(jī)共生的階段。
機(jī)器人,就是其中關(guān)鍵的載體。
基于這樣的邏輯,機(jī)器人超腦平臺(tái)AIBOT,依托混合式架構(gòu)、中央決策平臺(tái)、多傳感器融合,構(gòu)建端側(cè)超腦,讓機(jī)器人產(chǎn)品在感知智能、認(rèn)知智能和運(yùn)動(dòng)智能得到多維度的提升,也就成為了科大訊飛交出的第一份答卷。
確切的來(lái)說(shuō),是科大訊飛整個(gè)超腦2030計(jì)劃的第一步:
更快實(shí)現(xiàn)讓“懂知識(shí)、善學(xué)習(xí)、能進(jìn)化”的機(jī)器人走進(jìn)每個(gè)家庭?;诔X2030計(jì)劃,以API、低代碼、軟硬件一體、解決方案等方式,面向?qū)嶓w機(jī)器人和數(shù)字機(jī)器人建設(shè)N種場(chǎng)景化機(jī)器人,賦能工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)、特種行業(yè),連接產(chǎn)業(yè)生態(tài),共建行業(yè)場(chǎng)景。
“超腦2030計(jì)劃 ”第一步,跨出多大步子?
早在今年1月,這個(gè)計(jì)劃就已經(jīng)啟動(dòng),核心是利用AI解決未來(lái)社會(huì)的剛需問(wèn)題,如教育、人口老齡化等。
其第一階段目標(biāo),就是在2023年前,推出可養(yǎng)成的機(jī)器寵物、仿生運(yùn)動(dòng)機(jī)器狗等軟硬件一體的機(jī)器人,同期推出專業(yè)數(shù)字虛擬人家族,擔(dān)當(dāng)老師、醫(yī)生等角色。
該計(jì)劃的最終目標(biāo),是推出懂知識(shí)、會(huì)學(xué)習(xí)的陪伴機(jī)器人和自主學(xué)習(xí)虛擬人家族,全面進(jìn)入家庭。
而現(xiàn)在,AI技術(shù)推動(dòng)四足機(jī)器狗小黑從異寵向工具狗邁了一步。
值得注意的是,機(jī)器人超腦平臺(tái)的背后支撐,不僅讓更多企業(yè)在工業(yè)級(jí)運(yùn)用中可以無(wú)糧養(yǎng)狗,更多的室內(nèi)和戶外場(chǎng)景中,實(shí)體機(jī)器人都在拓展人的能力邊界。
高精度的細(xì)活、繁重枯燥的累活、危險(xiǎn)易受傷的險(xiǎn)活……
機(jī)器人、機(jī)械臂,上!
人機(jī)協(xié)同之外,在人機(jī)交互階段,AI已經(jīng)在發(fā)揮日益重要的作用。
科大訊飛在背后提供技術(shù)與生態(tài)來(lái)支撐,率先證明了這一點(diǎn)。
實(shí)現(xiàn)超腦2030計(jì)劃需要哪些關(guān)鍵技術(shù)突破?科大訊飛AI研究院副院長(zhǎng)高建清公開(kāi)了相關(guān)信息。
第一,需要以深度學(xué)習(xí)(Deep Learning)為代表的AI基礎(chǔ)算法的突破。
在諸多AI基礎(chǔ)算法中,無(wú)監(jiān)督學(xué)習(xí)和知識(shí)推理是兩個(gè)亟待突破的關(guān)鍵算法。
1024開(kāi)發(fā)者節(jié)當(dāng)天,科大訊飛發(fā)布了兩個(gè)輕量級(jí)預(yù)訓(xùn)練模型:語(yǔ)音及多模態(tài)預(yù)訓(xùn)練模型。這兩個(gè)模型的參數(shù)量遠(yuǎn)小于業(yè)界公開(kāi)的模型,但效果卻達(dá)到了業(yè)界最優(yōu),推廣性也很好。
整個(gè)2022年,科大訊飛有三項(xiàng)知識(shí)推理任務(wù)取得不錯(cuò)的成績(jī),尤其在面向特定領(lǐng)域的知識(shí)推理方面,機(jī)器水平已經(jīng)在今年7月首次超過(guò)人類水平。
此外,知識(shí)推理的另一個(gè)重要研究方向,也就是如何實(shí)現(xiàn)推理過(guò)程的可解釋性,科大訊飛將傳統(tǒng)符號(hào)推理系統(tǒng)與深度強(qiáng)化學(xué)習(xí)相結(jié)合,得出一套在類人答題領(lǐng)域正確率顯著優(yōu)于傳統(tǒng)推理系統(tǒng)的框架。
第二,是引領(lǐng)人機(jī)交互發(fā)展方向的多模態(tài)感知技術(shù)、多維表達(dá)技術(shù)、認(rèn)知智能技術(shù)。
拿多模態(tài)感知技術(shù)舉個(gè)具體例子來(lái)說(shuō),通常,語(yǔ)音識(shí)別的高準(zhǔn)確率,不代表識(shí)別出的文字合理、流暢。
科大訊飛基于多元語(yǔ)義評(píng)價(jià)的語(yǔ)音識(shí)別一體化框架,使用語(yǔ)義糾錯(cuò)任務(wù)與語(yǔ)音識(shí)別聯(lián)合優(yōu)化,讓語(yǔ)音識(shí)別保持高準(zhǔn)確率的同時(shí),提高識(shí)別后文字的可讀性。
第三,需要研究軟硬一體的機(jī)器人關(guān)鍵技術(shù),加大AI算法與運(yùn)動(dòng)控制的結(jié)合,讓機(jī)器人具備精細(xì)的運(yùn)動(dòng)控制能力。
具體的技術(shù)展示,已經(jīng)體現(xiàn)在小黑爬坡上坎的功夫中了。
除此之外,科大訊飛還整合工程能力,形成虛擬人交互平臺(tái)、機(jī)器人超腦平臺(tái),探索數(shù)字虛擬人、機(jī)器人等方面的應(yīng)用。
現(xiàn)場(chǎng),高建清展示了科大訊飛打造的一個(gè)裸眼3D場(chǎng)景下的高沉浸式人機(jī)交互。
而關(guān)于生態(tài)支撐這一點(diǎn),在今年的開(kāi)發(fā)者節(jié)上,科大訊飛董事長(zhǎng)劉慶峰拿數(shù)據(jù)說(shuō)話。
首先,是訊飛開(kāi)放平臺(tái)在過(guò)去一年的發(fā)展情況——訊飛開(kāi)放平臺(tái)開(kāi)放的AI產(chǎn)品及能力,從去年441項(xiàng)增長(zhǎng)至今年513項(xiàng);生態(tài)伙伴數(shù)從400萬(wàn)快速增長(zhǎng)到超500萬(wàn),年增長(zhǎng)率超30%;AI服務(wù)調(diào)用年增長(zhǎng)率達(dá)到36%;輸入法語(yǔ)音調(diào)用量同比增長(zhǎng)45%,Z世代群體平均語(yǔ)音輸入次數(shù)達(dá)到61次,是整體語(yǔ)音用戶的2倍。
接下來(lái),看看劉慶峰披露出的過(guò)去一年內(nèi),訊飛生態(tài)的其它數(shù)據(jù)。
其一,是虛擬人交互平臺(tái)資產(chǎn)增加。一方面,科大訊飛基于AI虛擬人交互平臺(tái),開(kāi)放平臺(tái)合作伙伴生態(tài)。發(fā)布一年后,虛擬人設(shè)計(jì)隊(duì)伍共468支,建設(shè)了700項(xiàng)虛擬人資產(chǎn)。
其次,剛剛結(jié)束的雙11“混戰(zhàn)”,帶來(lái)了最新消費(fèi)者數(shù)據(jù):科大訊飛銷售額同比增長(zhǎng)32%。
最受追捧的當(dāng)屬本就是“老奪冠人”的AI辦公產(chǎn)品,智能辦公本、智能錄音筆和翻譯機(jī)產(chǎn)品,拿下京東和天貓所在品類銷售額冠軍。
一些辦公硬件,比如辦公本、會(huì)議耳機(jī)、翻譯機(jī),年增長(zhǎng)率均近或超100%。綜合多個(gè)數(shù)據(jù),不難看出AI生態(tài)已經(jīng)滲入各行各業(yè),為生活和工業(yè)場(chǎng)景所熟用。
給出這一份綜合答卷,劉慶峰表示,隨著發(fā)展深入,AI在感知能力、理解能力、表達(dá)能力、運(yùn)動(dòng)能力方方面面,都需要承擔(dān)更大的任務(wù)。
一個(gè)屬于未來(lái)的時(shí)代正在快速開(kāi)啟。
當(dāng)數(shù)字經(jīng)濟(jì)更深層次賦能實(shí)體經(jīng)濟(jì)時(shí),人工智能承擔(dān)了更大的任務(wù)。
這需要一個(gè)更強(qiáng)大的“頭號(hào)玩家”。
科大訊飛如何理解人機(jī)協(xié)同
2020年,科大訊飛發(fā)布了AI科技樹(shù),強(qiáng)調(diào)“以基礎(chǔ)算法為主干,以技術(shù)體系為生長(zhǎng)方向,以場(chǎng)景理解為發(fā)展動(dòng)力”。
2022年,在超腦2030計(jì)劃的牽引下,科大訊飛的AI科技樹(shù)不斷壯大。既有以基礎(chǔ)算法為代表的主干發(fā)展,也有各技術(shù)體系的不斷外拓延伸。
作為AI技術(shù)落地的一種表現(xiàn)形式,人機(jī)協(xié)同已然崛起。人機(jī)協(xié)同的目的是改善工作流程,途徑是讓人和機(jī)器進(jìn)行工作和經(jīng)驗(yàn)的交流。
機(jī)器可以根據(jù)人類提供的信息,按步驟和流程執(zhí)行作業(yè);人類再在機(jī)器產(chǎn)出的成果上,錦上添花。二者各做彼此的擅長(zhǎng)事,實(shí)現(xiàn)人類和機(jī)器的價(jià)值最大化。
而整場(chǎng)大會(huì)聽(tīng)下來(lái),從整合多項(xiàng)技術(shù)的機(jī)器人超腦平臺(tái)窺見(jiàn)一隅,不難梳理出科大訊飛對(duì)人機(jī)協(xié)同的理解。
共分三個(gè)維度:
在物理世界,實(shí)體機(jī)器人拓展人的能力邊界。具體而言,輪足機(jī)器人應(yīng)用于餐飲服務(wù)、物資運(yùn)輸?shù)葓?chǎng)景;弈棋機(jī)器人可以滿足圍棋教學(xué)、訓(xùn)練和娛樂(lè)領(lǐng)域的多種需求。
在數(shù)字世界,數(shù)字工作助手助力工作提效;據(jù)悉,2022年,訊飛AI虛擬人已在醫(yī)療、金融、媒體、文旅等多個(gè)行業(yè)上崗,亮相兩會(huì)、北京冬奧會(huì)、世界人工智能大會(huì)等多個(gè)場(chǎng)合。
在元宇宙,虛擬人成為人的交互載體。
通過(guò)這三個(gè)維度,技術(shù)將和個(gè)人與企業(yè)深度聯(lián)結(jié),多模感知、深度理解、多維表達(dá)都將個(gè)性化展開(kāi)。
在這個(gè)過(guò)程中,科大訊飛帶給生活的技術(shù)支撐和生態(tài)積累,是看得見(jiàn)、摸得著、用得上的。
“人機(jī)關(guān)系,已經(jīng)在從單點(diǎn)技術(shù)的淺層人機(jī)協(xié)同,向更深層次、更為復(fù)雜的人機(jī)發(fā)展。”劉慶峰如是說(shuō)。
而且這種人機(jī)關(guān)系,即將進(jìn)入可見(jiàn)、可感、可觸碰的人機(jī)關(guān)系。這也是另一個(gè)維度上,AI和智能,正在如何影響和參與實(shí)體經(jīng)濟(jì)。