早上,王爺爺吃完飯,機(jī)器人“小明”趕緊提醒王爺爺要在半小時(shí)之內(nèi)吃藥,吃完藥王爺爺坐在電視機(jī)前,“小明”告訴王爺爺老花鏡在茶幾的第一個(gè)抽屜中。午休過(guò)后,王爺爺要出門(mén)散步,“小明”告訴王爺爺外面只有 10 度,需要穿外套,并拿上傘。
以上的情景絕對(duì)不只是暢想,隨著老齡化和少子化程度的加深,機(jī)器人會(huì)越來(lái)越多走進(jìn)老年人家庭,成為智能養(yǎng)老小助手。但是每個(gè)老人的脾氣、性格、需求各不相同,因此要求機(jī)器人能夠不斷學(xué)習(xí),理解老人的隱性需求,真正能夠陪伴老人。如何滿(mǎn)足這些個(gè)性化的需求?從人工智能的角度分析,就要讓機(jī)器人不斷學(xué)習(xí),認(rèn)識(shí)老人的家庭環(huán)境,理解老人的需求,但是目前,不管是從機(jī)器視覺(jué)方面,還是自然語(yǔ)言理解方面都面臨巨大的挑戰(zhàn)。
在英特爾中國(guó)研究院 2018 年媒體開(kāi)放日上,英特爾的研究人員從計(jì)算機(jī)視覺(jué)、自然語(yǔ)言識(shí)別、強(qiáng)化學(xué)習(xí)等領(lǐng)域分享了英特爾的研究成果,讓我們看到未來(lái)機(jī)器人的發(fā)展方向。
目前的技術(shù)瓶頸
機(jī)器人進(jìn)入家庭,首先需要認(rèn)識(shí)主人,只有認(rèn)識(shí)了主人才能進(jìn)行全方位的服務(wù),比如主人習(xí)慣什么時(shí)候起床,如果起床晚了是否需要進(jìn)行提醒?喜歡吃什么食物,當(dāng)家里沒(méi)有了是否需要提醒子女購(gòu)買(mǎi)?對(duì)于主人和重要物品,目前是基于深度學(xué)習(xí),進(jìn)行大量訓(xùn)練進(jìn)行識(shí)別,但是即使進(jìn)行了大量訓(xùn)練,可能有時(shí)候還會(huì)出錯(cuò),比如針對(duì)老花鏡進(jìn)行了一萬(wàn)張圖片的訓(xùn)練,人工智能還是有可能認(rèn)錯(cuò)主人的老花鏡。
另外,由于每個(gè)家庭的需求不同,機(jī)器人無(wú)法進(jìn)行預(yù)編譯處理,需要個(gè)性化定制。比如有些人喜歡靜,家里不能隨便走動(dòng),有些人喜歡動(dòng),需要隨時(shí)滿(mǎn)足主人的呼喚。主人的起床時(shí)間不同,無(wú)法預(yù)先編程,需要根據(jù)個(gè)人的特點(diǎn)進(jìn)行觀察。因此,做好機(jī)器人不僅需要人臉識(shí)別、底層語(yǔ)義分析,還需要高層語(yǔ)義分析,從而讓機(jī)器人的智能程度滿(mǎn)足個(gè)性化需求。
進(jìn)入家庭后需要自主學(xué)習(xí)
現(xiàn)在的人臉識(shí)別一般是對(duì)正臉進(jìn)行識(shí)別,對(duì)于側(cè)臉識(shí)別可能就沒(méi)有那么靈了,如果在家中機(jī)器人只能識(shí)別正臉將會(huì)發(fā)生很多尷尬,用戶(hù)的交互體驗(yàn)也會(huì)大打折扣,因此有人想出了通過(guò)人體特征進(jìn)行辨識(shí),比如衣服,但是當(dāng)主人換了衣服機(jī)器人又無(wú)法辨識(shí)。英特爾所采取的方式是將人臉特征和人體特征相結(jié)合,人體特征不需要預(yù)先把人各種各樣的衣服都要看一遍或者姿態(tài)看一遍才能認(rèn),通過(guò)人體特征認(rèn)人,而是通過(guò)人臉開(kāi)始不斷地自我學(xué)習(xí),機(jī)器人剛開(kāi)始通過(guò)人臉識(shí)別主人,經(jīng)過(guò)一周的交互和觀察,可以從各個(gè)角度把主人準(zhǔn)確地識(shí)別出來(lái)。
因?yàn)橹魅丝赡軙?huì)換衣服,機(jī)器人還會(huì)發(fā)生錯(cuò)誤,這時(shí)候機(jī)器人需要和主人主動(dòng)交互,把可能的錯(cuò)誤進(jìn)行確認(rèn),這是自我學(xué)習(xí)的認(rèn)人功能。同時(shí),英特爾還研發(fā)了一些自適應(yīng)物體識(shí)別,比如:藥瓶,通過(guò)對(duì)一幀的圖像標(biāo)注之后,把物體在線建一個(gè)模型,后續(xù)可以把這個(gè)物體的邊界準(zhǔn)確的分割出來(lái),這等于認(rèn)識(shí)物體是可以通過(guò)向用戶(hù)學(xué)習(xí)的過(guò)程實(shí)現(xiàn)。
機(jī)器人的主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)
讓機(jī)器人理解:“昨天我在客廳里吃藥,藥瓶去哪里了?”
在家庭生活中,王爺爺可能問(wèn)機(jī)器人:昨天我在客廳里吃藥,藥瓶去哪里了?這個(gè)問(wèn)題貌似非常簡(jiǎn)單,可能三歲小朋友也能理解,但是對(duì)機(jī)器人來(lái)說(shuō)里面有很難跨越的技術(shù)鴻溝。其中王爺爺是對(duì)人的識(shí)別,吃藥是動(dòng)作識(shí)別,藥瓶是物體識(shí)別,這些需要底層識(shí)別模塊來(lái)實(shí)現(xiàn)。再看“昨天”和“客廳”這兩個(gè)關(guān)鍵詞,客廳是對(duì)空間的理解,昨天是對(duì)時(shí)間信的理解。如何讓機(jī)器人理解這句話(huà)?首先最底層要進(jìn)行人物識(shí)別、物體識(shí)別、情緒檢測(cè)、動(dòng)作檢測(cè),接下來(lái),有一個(gè)三維語(yǔ)義環(huán)境,就是把底層檢測(cè)到的信息和物理環(huán)境對(duì)應(yīng)起來(lái),比如人在什么位置,物體在什么位置,這件事發(fā)生在什么位置,這些信息只有在三維語(yǔ)義環(huán)境的模塊中對(duì)應(yīng)上,機(jī)器人才能夠理解事件發(fā)生的意義。
英特爾利用三維語(yǔ)義環(huán)境和個(gè)性化知識(shí)庫(kù)這兩個(gè)模塊來(lái)解決這些問(wèn)題,從底層的感知模塊走到應(yīng)用,但是底層的感知模塊不可能做到百分之百精準(zhǔn)。這個(gè)錯(cuò)誤會(huì)往上層傳播,到了空間層,我們希望把底層的這些信息打上空間智能的標(biāo)簽,位置跟空間相對(duì)的情況,包括跟空間的三維建模,都是在這一層次進(jìn)行的。理想的情況機(jī)器人到了家里,馬上建立空間模型,并且能夠理解空間的含義。到了知識(shí)庫(kù)層面,能夠很好的記憶這個(gè)知識(shí),基于這個(gè)知識(shí)進(jìn)行推理、應(yīng)用,但是目前的技術(shù)還存在問(wèn)題,不可能做到百分之百精準(zhǔn)。
三維語(yǔ)義環(huán)境所做的是從感知層得到信息,比如藥瓶的位置,用坐標(biāo)的方式標(biāo)記出來(lái),接下來(lái)空間智能要理解這個(gè)空間是客廳還是餐廳,到 這一層次才能跟人交流,進(jìn)而判斷出客廳,然后順利在客廳找到藥瓶??梢钥闯?,空間智能主要的工作是快速對(duì)空間進(jìn)行建模,并理解這個(gè)空間。關(guān)于個(gè)性化的知識(shí)圖譜,主要功能是記憶和推理,所面臨的最大挑戰(zhàn)來(lái)自于我們想記錄的知識(shí)。人類(lèi)知識(shí)分兩塊:一塊是穩(wěn)定的知識(shí),就像谷歌和 Facebook 力圖想存的知識(shí),谷歌叫 Google Graph,這些知識(shí)可以事先做好,并且經(jīng)過(guò)專(zhuān)家審核;另外一種是個(gè)性化知識(shí),是動(dòng)態(tài)變化的,機(jī)器人來(lái)到家庭之前無(wú)法提前獲取,為了獲取這樣的知識(shí),我們的挑戰(zhàn)必須要有一個(gè)合適的知識(shí)表示,合適的知識(shí)推理,而且這個(gè)知識(shí)圖譜要能容忍底層產(chǎn)生的錯(cuò)誤。
強(qiáng)化學(xué)習(xí)讓機(jī)器人能夠完成主動(dòng)服務(wù)
當(dāng)機(jī)器人能夠理解語(yǔ)言的時(shí)候,說(shuō)明機(jī)器人已經(jīng)具備了和人溝通的能力,但是想要實(shí)現(xiàn)真正的照顧別人,機(jī)器人需要更深的理解能力,不光是被動(dòng)地去服務(wù),還能主動(dòng)的猜測(cè)主人的意圖。從王爺爺?shù)睦觼?lái)看,當(dāng)王爺爺需要藥瓶時(shí)機(jī)器人可以拿給他是一種情況,如果機(jī)器人看到王爺爺在找東西,能夠猜測(cè)他想找藥瓶還是找水,就能提供主動(dòng)服務(wù)。這里會(huì)用到強(qiáng)化學(xué)習(xí),它教給機(jī)器人三個(gè)功能:一是如何學(xué)習(xí)新的能力;二是如何做的一次比一次好;三是如何主動(dòng)地提供正確服務(wù)。
關(guān)于一次比一次做的好這一點(diǎn),需要通過(guò)小樣本的強(qiáng)化學(xué)習(xí)來(lái)解決。我們希望機(jī)器人一次比一次做得好,需要猜測(cè),而猜測(cè)本身也是需要優(yōu)化的。猜測(cè)的目的主要有兩方面,一是有時(shí)候不能進(jìn)行標(biāo)注,比如王爺爺走向桌子可能是找水,走向柜子可能是找藥,但是這個(gè)事情無(wú)法去標(biāo)注,機(jī)器人需要去主動(dòng)采集樣本,通過(guò)回報(bào)自己進(jìn)行標(biāo)注。強(qiáng)化學(xué)習(xí)需要不斷探索和優(yōu)化,從而讓機(jī)器人更加智能。
當(dāng)然,機(jī)器人的學(xué)習(xí)還面臨巨大的挑戰(zhàn),比如:人的關(guān)節(jié)都是全向關(guān)節(jié),而機(jī)器人不能做到這一點(diǎn),每一個(gè)關(guān)節(jié)只能向一個(gè)方向旋轉(zhuǎn)。如果我們希望把人的一個(gè)動(dòng)作映射到機(jī)器人上,需要做一個(gè)推廣,使它能夠適應(yīng)機(jī)器人獨(dú)特的運(yùn)動(dòng)特性。另外,我們應(yīng)用時(shí)還要考慮到采樣成本的預(yù)算,當(dāng)學(xué)習(xí)一個(gè)新的性能時(shí),機(jī)器人必須一次學(xué)會(huì)。我們需要考慮采樣成本和比較更高級(jí)的需求,來(lái)達(dá)到對(duì)于實(shí)際機(jī)器人學(xué)習(xí)來(lái)說(shuō)可用的程度。
關(guān)于人工智能會(huì)替代人類(lèi)的說(shuō)法已經(jīng)深入人心,曾經(jīng)引來(lái)一波恐慌,聽(tīng)完英特爾研究院的工程師講解,筆者覺(jué)得那個(gè)時(shí)代還很遙遠(yuǎn),機(jī)器人需要經(jīng)過(guò)漫長(zhǎng)的自我學(xué)習(xí)才能達(dá)到熟練理解空間和語(yǔ)義的階段,要實(shí)現(xiàn)真正的智能似乎還需要計(jì)算能力和存儲(chǔ)能力的進(jìn)一步的提高,硬件技術(shù)和軟件算法還需要很大的進(jìn)步空間。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)允許,不得轉(zhuǎn)載!