人類約70%的信息是通過(guò)人眼感知獲取的,未來(lái)的人形機(jī)器人也將和人類一樣,大量信息都將通過(guò)視覺(jué)感知獲取。視覺(jué)技術(shù)是機(jī)器人獲取環(huán)境信息的重要途經(jīng),隨著國(guó)內(nèi)外人形機(jī)器人的陸續(xù)發(fā)布,人形機(jī)器人的視覺(jué)感知技術(shù)越來(lái)越重要了。
人形機(jī)器人對(duì)環(huán)境感知有寬視場(chǎng)、高速度和高精度的各種要求,但是目前技術(shù)路徑尚未完全確定,各家都有自己的解決方案。特斯拉 Optimus的3D傳感模塊以多目視覺(jué)為主,全身搭載8個(gè)攝像頭,自研芯片FSD,純視覺(jué)方案硬件成本低,對(duì)軟件算法要求高。國(guó)內(nèi)廠商多采用3D相機(jī)+激光雷達(dá)方案,優(yōu)必選WALKERX的視覺(jué)模塊采用四目視覺(jué)+雙RGBD,小米CyberOne的Mi-Sense視覺(jué)系統(tǒng)采用iToF+RGB,達(dá)闥采用3D深度相機(jī)+RGB單目攝像頭+TOF相機(jī)+激光雷達(dá)的綜合方案,宇樹(shù)采用3D激光雷達(dá)+深度相機(jī)方案,追覓采用ToF+結(jié)構(gòu)光,智元A1采用 RGBD 相機(jī)。
究竟以上技術(shù)路徑是如何實(shí)現(xiàn)的?各種視覺(jué)方案又有哪些差異點(diǎn)?今天筆者將和大家一起學(xué)習(xí)探討人形機(jī)器人的視覺(jué)系統(tǒng)是如何實(shí)現(xiàn)對(duì)感知和交互的,以便大家對(duì)人形機(jī)器人視覺(jué)技術(shù)發(fā)展有更多了解和判斷。
一、人形機(jī)器人視覺(jué)方案
1.1、特斯拉人形視覺(jué)方案
特斯拉的純視覺(jué)傳感器方案的實(shí)現(xiàn),離不開(kāi)多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu)。每輛特斯拉汽車擁有8個(gè)環(huán)繞車身、覆蓋周圍360°的攝像頭,來(lái)獲取交通信號(hào)燈、信號(hào)牌、匝道、路緣等周邊信息,為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了絕佳條件。
特斯拉開(kāi)發(fā)了“矢量空間”(Vector Space)技術(shù),同時(shí)兼具了非凸優(yōu)化算法(Non-convex)、高維度兩大優(yōu)勢(shì)。該技術(shù)可以通過(guò)8個(gè)攝像頭輸入的數(shù)據(jù)為基礎(chǔ)繪制3D鳥瞰視圖,形成4D的空間和時(shí)間標(biāo)簽的“路網(wǎng)”以呈現(xiàn)道路等信息,幫助車輛把握駕駛環(huán)境,更精準(zhǔn)的尋找最優(yōu)駕駛路徑。同時(shí),特斯拉自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。
圖| FSD計(jì)算機(jī)視覺(jué)技術(shù)
來(lái)源:特斯拉AI Day
特斯拉Optimus搭載了與特斯拉車輛相同的FSD技術(shù)以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù),其大腦使用的是自研的AI訓(xùn)練 Dojo D1芯片和超級(jí)計(jì)算機(jī) Dojo。特斯拉FSD系統(tǒng)已可以實(shí)現(xiàn)每1.5毫秒2500次搜索的超高效率,預(yù)測(cè)可能出現(xiàn)的各種情況,并在其中找到最安全、最舒適、最快速的自動(dòng)駕駛路徑。在經(jīng)過(guò)完全自動(dòng)駕駛能力系統(tǒng)的實(shí)際應(yīng)用驗(yàn)證后,特斯拉強(qiáng)大的FSD計(jì)算機(jī)視覺(jué)技術(shù)已可直接應(yīng)用于機(jī)器人。
圖|特斯拉FSD芯片+D1芯片
來(lái)源:特斯拉AI Day
圖|小米Mi Sense 視覺(jué)技術(shù)
來(lái)源:小米官網(wǎng)
小米CyberOne的Mi-Sense視覺(jué)系統(tǒng)采用iToF+RGB方案。歐菲光同步發(fā)布自研的機(jī)器視覺(jué)深度相機(jī)模塊,主要由 iToF 模組、RGB 模組、可選的 IMU 模塊組成,產(chǎn)品在測(cè)量范圍內(nèi)精度高達(dá) 1%,應(yīng)用場(chǎng)景廣泛,可通過(guò)第三方實(shí)驗(yàn)室 IEC 60825-1 認(rèn)證,滿足激光安全 Class1 標(biāo)準(zhǔn)。iToF 技術(shù)是現(xiàn)在主流的 3D 視覺(jué)感知技術(shù)之一,歐菲光研發(fā)基于 iToF+RGB 深度測(cè)量技術(shù)的 3D 智能深度相機(jī)。
iToF無(wú)法獲取物體的顏色紋理信息,RGB相機(jī)可獲取物體豐富的顏色紋理信息,將RGB與iToF相結(jié)合既能得到物體的深度信息,又可獲取物體的顏色紋理信息,這可大大拓展其應(yīng)用領(lǐng)域。RGB信息可用于物體檢測(cè)識(shí)別,深度信息可用于建圖避障等,RGB+iToF在諸多領(lǐng)域可實(shí)現(xiàn)1+1>2的作用。
1.3、優(yōu)必選人形視覺(jué)方案
圖|優(yōu)必選人形視覺(jué)方案
來(lái)源:優(yōu)必選官網(wǎng)
優(yōu)必選WALKERX的視覺(jué)模塊創(chuàng)新升級(jí)四目系統(tǒng)及雙RGBD傳感器,采用胸部四目視覺(jué),頭部+腰部雙RGBD,以及腰部4*毫米波雷達(dá)避障。
SLAM視覺(jué)導(dǎo)航自主路徑規(guī)劃:基于多目視覺(jué)傳感器的三維立體視覺(jué)定位采用Coarse-to-fine的多層規(guī)劃算法,第一視角實(shí)景AR導(dǎo)航交互及2.5D立體避障技術(shù)實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景下全局最優(yōu)路徑自主導(dǎo)航。實(shí)現(xiàn)定位精度10cm,導(dǎo)航精度20cm,精定位精度1cm。
基于深度學(xué)習(xí)的物體檢測(cè)與識(shí)別算法、人臉識(shí)別算法和跨風(fēng)格人臉數(shù)據(jù)生成技術(shù),可在復(fù)雜環(huán)境中識(shí)別人臉、手勢(shì)、物體等信息,豐富準(zhǔn)確地理解和感知外部環(huán)境。
1.4、達(dá)闥人形視覺(jué)方案
圖|達(dá)闥人形視覺(jué)方案
來(lái)源:達(dá)闥官網(wǎng)
達(dá)闥人形頭部+腰部?jī)蓚€(gè)3D深度相機(jī),前胸和后胸兩個(gè)RGB單目攝像頭,下半身暫時(shí)單點(diǎn)TOF相機(jī)+激光雷達(dá)的方案。
1.5、宇樹(shù)人形視覺(jué)方案
圖|宇樹(shù)人形視覺(jué)方案
來(lái)源:宇樹(shù)官網(wǎng)
宇樹(shù)目前采用頭部3D激光雷達(dá)+深度相機(jī)方案,相對(duì)最為簡(jiǎn)單。
二、視覺(jué)技術(shù)分析
2.1、3D 視覺(jué)技術(shù)
在過(guò)去的數(shù)十年中,2D 成像技術(shù)有了長(zhǎng)足的發(fā)展,分辨率從幾十萬(wàn)像素發(fā) 展到現(xiàn)在的上億像素,色彩還原更真實(shí),逆光環(huán)境下也能通過(guò) HDR(高動(dòng)態(tài)光 照渲染)技術(shù)提升圖像質(zhì)量。然而,2D 圖像僅能夠提供紋理(色彩)信息,無(wú)法提供實(shí)現(xiàn)更精準(zhǔn)識(shí)別、追蹤等功能所需的空間形貌、幾何尺寸、位姿等信息。
3D視覺(jué)技術(shù)相對(duì)與2D技術(shù)提供了更豐富的被攝目標(biāo)信息,可以在六個(gè)自由度(x、y、z、旋轉(zhuǎn)、俯仰、橫擺)上定位被攝目標(biāo),還原人眼視角的三維立體世界?;?D視覺(jué)傳感器采集的信息,不但有紋理(色彩)信息,還增加深度信息,也就是視場(chǎng)內(nèi)的空間幾何尺寸信息。這樣圍繞著物體、空間掃描一圈,就能得到點(diǎn)云圖和精準(zhǔn)的“1:1”還原的3D 模型。而有了這些信息作為輸入,應(yīng)用場(chǎng)景會(huì)大大增多,性能也會(huì)大幅提升。
圖|空間三維測(cè)量
來(lái)源:奧比中光官網(wǎng)
3D機(jī)器視覺(jué)技術(shù)分為兩個(gè)部分,即3D重構(gòu)技術(shù)和3D數(shù)據(jù)分析算法,前者獲取3D信息、重構(gòu)3D場(chǎng)景,后者對(duì)3D場(chǎng)景中的信息進(jìn)行理解。目前,3D重構(gòu)的常用技術(shù)類型有:被動(dòng)3D視覺(jué)技術(shù)(分為單目3D、雙目3D 和多目3D,即分別使用一個(gè)、兩個(gè)和兩個(gè)以上相機(jī)組成立體視覺(jué)系統(tǒng))、激光3D掃描技術(shù)、結(jié)構(gòu)光3D技術(shù)、TOF相機(jī)技術(shù)等。3D重構(gòu)獲得的表征數(shù)據(jù),包括點(diǎn)云、體素、網(wǎng)格圖、深度圖等,通過(guò)3D數(shù)據(jù)分析算法進(jìn)行濾波、特征提取、分割、語(yǔ)義理解,從而實(shí)現(xiàn)識(shí)別、測(cè)量、定位和檢測(cè)等功能。
表1 3D視覺(jué)感知技術(shù)差異
來(lái)源:奧比中光
2.2、3D視覺(jué)常用技術(shù)對(duì)比
3D 視覺(jué)成像技術(shù)可分為光學(xué)和非光學(xué)成像方法。目前應(yīng)用最多的還是光學(xué)方法,包括:結(jié)構(gòu)光、飛行時(shí)間(ToF)、多目視覺(jué)激光掃描法、激光散斑法、干涉法、照相測(cè)量法、激光跟蹤法等等,常用的為前三種方法。
圖|三種3D視覺(jué)方案原理
來(lái)源:網(wǎng)絡(luò)、知乎、與非研究院整理
2.2.1、結(jié)構(gòu)光
結(jié)構(gòu)光:通過(guò)光學(xué)投射模塊將具有編碼信息的結(jié)構(gòu)光投射到物體表面,在被測(cè)物表面形成光條圖像。圖像采集系統(tǒng)采集光條圖像后,通過(guò)算法處理得出被測(cè)物表面的三維輪廓數(shù)據(jù),以還原目標(biāo)物體三維空間信息。結(jié)構(gòu)光技術(shù)是一種主動(dòng)的三維測(cè)量技術(shù)。
特點(diǎn):由于結(jié)構(gòu)光是主動(dòng)光,好處是昏暗環(huán)境和夜間可用。不需要根據(jù)場(chǎng)景的變化而有變化,降低了匹配的難度。但顯然在強(qiáng)光環(huán)境中會(huì)受到干擾,室外基本不可用。另外,由于主動(dòng)結(jié)構(gòu)光是帶編碼的,所以多個(gè)結(jié)構(gòu)光相機(jī)同時(shí)使用也是有問(wèn)題的。在實(shí)測(cè)中,結(jié)構(gòu)光在角度比較小的側(cè)面上反射比較嚴(yán)重,經(jīng)常出現(xiàn)比較大的黑洞,當(dāng)然黑色物體和玻璃是結(jié)構(gòu)光的大 BUG,一個(gè)吸光一個(gè)透光。
2.2.2、立體視覺(jué)法
立體視覺(jué)法:指從不同的視點(diǎn)獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息, 目前立體視覺(jué) 3D 可以通過(guò)單目、雙目、多目實(shí)現(xiàn)。雙目機(jī)器視覺(jué)是指使用兩個(gè) RGB 彩色相機(jī)采集圖像,并通過(guò)后端的雙目匹配和三角測(cè)量等算法,計(jì)算得到深度圖的技術(shù)方法。雙目技術(shù)使用的是物體本身的特征點(diǎn),由于每一次雙目匹配都面對(duì)不同的圖像,都需要重新提取特征點(diǎn),計(jì)算量非常大。雙目是一種被動(dòng)的三維測(cè)量技術(shù)。
特點(diǎn):硬件復(fù)雜度較低,弱光或目標(biāo)特征不明顯時(shí)幾乎不可用。同時(shí),雙目相機(jī)的運(yùn)算復(fù)雜度也非常高,對(duì)硬件計(jì)算性能要求極高。因?yàn)橛?jì)算能力要求高,雙目相機(jī)極少在嵌入式系統(tǒng)設(shè)備中使用,雙目相機(jī)在通用場(chǎng)景中表現(xiàn)也并不太好, 像諸如 slam 導(dǎo)航等應(yīng)用,但在工業(yè)自動(dòng)化領(lǐng)域和 x86 系統(tǒng)中,雙目相機(jī)應(yīng)用廣泛,因?yàn)楣I(yè)自動(dòng)化中,雙目相機(jī)只要解決特定場(chǎng)景中的特定問(wèn)題。
2.2.3、飛行時(shí)間(ToF)
飛行時(shí)間(ToF):由發(fā)射和反射光信號(hào)之間的時(shí)間延遲來(lái)測(cè)量,給定固定的光速。為了精確地測(cè)量時(shí)延,經(jīng)常使用短光脈沖。這種技術(shù)跟 3D 激光傳感器原理基本類似,只不過(guò)3D 激光傳感器是逐點(diǎn)掃描,而TOF 相機(jī)則是同時(shí)得到整幅圖像的深度信息。
特點(diǎn):和結(jié)構(gòu)光方式相比,ToF 并不需要對(duì)光的圖案做復(fù)雜解析,只需要反射回來(lái)即可,這大大的提高了魯棒性,深度信息還原度比結(jié)構(gòu)光好很多,點(diǎn)云的完整性更好。主要表現(xiàn)在:深度圖質(zhì)量要高于結(jié)構(gòu)光,抗強(qiáng)光的干擾能力也更強(qiáng)一些,精度也要更高一些。對(duì)于玻璃,是光技術(shù)的死穴,只能靠其他技術(shù)來(lái)彌補(bǔ)了。ToF速度高,但精度只有毫米級(jí)。ToF 技術(shù)的難度較高,成本也較高。
2.3、3D視覺(jué)傳感器
3D 視覺(jué)傳感器是由深度引擎芯片、深度引擎算法、通用或?qū)S酶泄庑酒?、專用光學(xué)系統(tǒng)、驅(qū)動(dòng)及固件等組成的精密光學(xué)測(cè)量系統(tǒng),可以采集并輸出“人體、物體和空間”的三維矢量信息。
圖|視覺(jué)傳感器結(jié)構(gòu)
來(lái)源:奧比中光招股書
三、國(guó)內(nèi)外主要3D視覺(jué)企業(yè)
消費(fèi)級(jí)競(jìng)爭(zhēng)對(duì)手主要為蘋果、華為、微軟、索尼等科技巨頭,也包括英飛凌、瑞芯微、華捷艾米等企業(yè)。微軟是業(yè)內(nèi)最早推出消費(fèi)級(jí)3D視覺(jué)傳感器的企業(yè),已推出結(jié)構(gòu)光、iToF 技術(shù)的 3D 視覺(jué)傳感器;蘋果、華為主要自研 3D視覺(jué)傳感器以服務(wù)于自家產(chǎn)品;索尼、三星借助自身在感光芯片方面的實(shí)力,推出iToF、dToF 技術(shù)相應(yīng)的感光芯片產(chǎn)品。英飛凌、瑞芯微、奧比中光、華捷艾米也向市場(chǎng)推出了各自研發(fā)的 3D 視覺(jué)傳感器產(chǎn)品。
表|3D視覺(jué)傳感器主要企業(yè)和產(chǎn)品
來(lái)源:奧比中光招股書(已上市)
目前3D視覺(jué)市場(chǎng)主要還是以外資品牌占據(jù)市場(chǎng)主流,蘋果、微軟、索尼、英特爾、三星等自研iTOF芯片或雙目3D芯片為主。國(guó)內(nèi)奧比中光市占率主導(dǎo)地位,芯片為自研,華為、瑞芯微也相繼有自研芯片推出,華捷艾米、歐菲光等也已經(jīng)開(kāi)始切入相關(guān)市場(chǎng)。
四、總結(jié)
人形機(jī)器人視覺(jué)方案目前主要以結(jié)構(gòu)光、雙目或多目RGB、TOF等的組合方案為主。國(guó)外大廠已經(jīng)較早的布局和應(yīng)用,國(guó)內(nèi)市場(chǎng)還在逐步打開(kāi)市場(chǎng)空間。
現(xiàn)階段國(guó)內(nèi)外人形機(jī)器人產(chǎn)業(yè)還處于0-1的階段,視覺(jué)方案的選擇比較多樣化,隨著出貨量的增長(zhǎng),技術(shù)的迭代升級(jí),未來(lái)視覺(jué)方案也將會(huì)逐步優(yōu)化定型。3D視覺(jué)作為人形機(jī)器人最優(yōu)的視覺(jué)方案,也會(huì)跟隨人形機(jī)器人實(shí)現(xiàn)蓬勃發(fā)展。