加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 一、人形機(jī)器人視覺方案
    • 二、視覺技術(shù)分析
    • 三、國內(nèi)外主要3D視覺企業(yè)
    • 四、總結(jié)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

人形機(jī)器人產(chǎn)業(yè)鏈分析——3D視覺

01/15 14:49
1.1萬
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

人類約70%的信息是通過人眼感知獲取的,未來的人形機(jī)器人也將和人類一樣,大量信息都將通過視覺感知獲取。視覺技術(shù)是機(jī)器人獲取環(huán)境信息的重要途經(jīng),隨著國內(nèi)外人形機(jī)器人的陸續(xù)發(fā)布,人形機(jī)器人的視覺感知技術(shù)越來越重要了。

人形機(jī)器人對環(huán)境感知有寬視場、高速度和高精度的各種要求,但是目前技術(shù)路徑尚未完全確定,各家都有自己的解決方案。特斯拉 Optimus的3D傳感模塊以多目視覺為主,全身搭載8個(gè)攝像頭自研芯片FSD,純視覺方案硬件成本低,對軟件算法要求高。國內(nèi)廠商多采用3D相機(jī)+激光雷達(dá)方案,優(yōu)必選WALKERX的視覺模塊采用四目視覺+雙RGBD,小米CyberOne的Mi-Sense視覺系統(tǒng)采用iToF+RGB,達(dá)闥采用3D深度相機(jī)+RGB單目攝像頭+TOF相機(jī)+激光雷達(dá)的綜合方案,宇樹采用3D激光雷達(dá)+深度相機(jī)方案,追覓采用ToF+結(jié)構(gòu)光,智元A1采用 RGBD 相機(jī)。

究竟以上技術(shù)路徑是如何實(shí)現(xiàn)的?各種視覺方案又有哪些差異點(diǎn)?今天筆者將和大家一起學(xué)習(xí)探討人形機(jī)器人的視覺系統(tǒng)是如何實(shí)現(xiàn)對感知和交互的,以便大家對人形機(jī)器人視覺技術(shù)發(fā)展有更多了解和判斷。

一、人形機(jī)器人視覺方案

1.1、特斯拉人形視覺方案

特斯拉的純視覺傳感器方案的實(shí)現(xiàn),離不開多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu)。每輛特斯拉汽車擁有8個(gè)環(huán)繞車身、覆蓋周圍360°的攝像頭,來獲取交通信號燈、信號牌、匝道、路緣等周邊信息,為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了絕佳條件。

特斯拉開發(fā)了“矢量空間”(Vector Space)技術(shù),同時(shí)兼具了非凸優(yōu)化算法(Non-convex)、高維度兩大優(yōu)勢。該技術(shù)可以通過8個(gè)攝像頭輸入的數(shù)據(jù)為基礎(chǔ)繪制3D鳥瞰視圖,形成4D的空間和時(shí)間標(biāo)簽的“路網(wǎng)”以呈現(xiàn)道路等信息,幫助車輛把握駕駛環(huán)境,更精準(zhǔn)的尋找最優(yōu)駕駛路徑。同時(shí),特斯拉自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。

圖| FSD計(jì)算機(jī)視覺技術(shù)

來源:特斯拉AI Day

特斯拉Optimus搭載了與特斯拉車輛相同的FSD技術(shù)以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù),其大腦使用的是自研的AI訓(xùn)練 Dojo D1芯片和超級計(jì)算機(jī) Dojo。特斯拉FSD系統(tǒng)已可以實(shí)現(xiàn)每1.5毫秒2500次搜索的超高效率,預(yù)測可能出現(xiàn)的各種情況,并在其中找到最安全、最舒適、最快速的自動駕駛路徑。在經(jīng)過完全自動駕駛能力系統(tǒng)的實(shí)際應(yīng)用驗(yàn)證后,特斯拉強(qiáng)大的FSD計(jì)算機(jī)視覺技術(shù)已可直接應(yīng)用于機(jī)器人。

圖|特斯拉FSD芯片+D1芯片

來源:特斯拉AI Day

圖|小米Mi Sense 視覺技術(shù)

來源:小米官網(wǎng)

小米CyberOne的Mi-Sense視覺系統(tǒng)采用iToF+RGB方案。歐菲光同步發(fā)布自研的機(jī)器視覺深度相機(jī)模塊,主要由 iToF 模組、RGB 模組、可選的 IMU 模塊組成,產(chǎn)品在測量范圍內(nèi)精度高達(dá) 1%,應(yīng)用場景廣泛,可通過第三方實(shí)驗(yàn)室 IEC 60825-1 認(rèn)證,滿足激光安全 Class1 標(biāo)準(zhǔn)。iToF 技術(shù)是現(xiàn)在主流的 3D 視覺感知技術(shù)之一,歐菲光研發(fā)基于 iToF+RGB 深度測量技術(shù)的 3D 智能深度相機(jī)。

iToF無法獲取物體的顏色紋理信息,RGB相機(jī)可獲取物體豐富的顏色紋理信息,將RGB與iToF相結(jié)合既能得到物體的深度信息,又可獲取物體的顏色紋理信息,這可大大拓展其應(yīng)用領(lǐng)域。RGB信息可用于物體檢測識別,深度信息可用于建圖避障等,RGB+iToF在諸多領(lǐng)域可實(shí)現(xiàn)1+1>2的作用。

1.3、優(yōu)必選人形視覺方案

圖|優(yōu)必選人形視覺方案

來源:優(yōu)必選官網(wǎng)

優(yōu)必選WALKERX的視覺模塊創(chuàng)新升級四目系統(tǒng)及雙RGBD傳感器,采用胸部四目視覺,頭部+腰部雙RGBD,以及腰部4*毫米波雷達(dá)避障。

SLAM視覺導(dǎo)航自主路徑規(guī)劃:基于多目視覺傳感器的三維立體視覺定位采用Coarse-to-fine的多層規(guī)劃算法,第一視角實(shí)景AR導(dǎo)航交互及2.5D立體避障技術(shù)實(shí)現(xiàn)動態(tài)場景下全局最優(yōu)路徑自主導(dǎo)航。實(shí)現(xiàn)定位精度10cm,導(dǎo)航精度20cm,精定位精度1cm。

基于深度學(xué)習(xí)的物體檢測與識別算法、人臉識別算法和跨風(fēng)格人臉數(shù)據(jù)生成技術(shù),可在復(fù)雜環(huán)境中識別人臉、手勢、物體等信息,豐富準(zhǔn)確地理解和感知外部環(huán)境。

1.4、達(dá)闥人形視覺方案

圖|達(dá)闥人形視覺方案

來源:達(dá)闥官網(wǎng)

達(dá)闥人形頭部+腰部兩個(gè)3D深度相機(jī),前胸和后胸兩個(gè)RGB單目攝像頭,下半身暫時(shí)單點(diǎn)TOF相機(jī)+激光雷達(dá)的方案。

1.5、宇樹人形視覺方案

圖|宇樹人形視覺方案

來源:宇樹官網(wǎng)

宇樹目前采用頭部3D激光雷達(dá)+深度相機(jī)方案,相對最為簡單。

二、視覺技術(shù)分析

2.1、3D 視覺技術(shù)

在過去的數(shù)十年中,2D 成像技術(shù)有了長足的發(fā)展,分辨率從幾十萬像素發(fā) 展到現(xiàn)在的上億像素,色彩還原更真實(shí),逆光環(huán)境下也能通過 HDR(高動態(tài)光 照渲染)技術(shù)提升圖像質(zhì)量。然而,2D 圖像僅能夠提供紋理(色彩)信息,無法提供實(shí)現(xiàn)更精準(zhǔn)識別、追蹤等功能所需的空間形貌、幾何尺寸、位姿等信息。

3D視覺技術(shù)相對與2D技術(shù)提供了更豐富的被攝目標(biāo)信息,可以在六個(gè)自由度(x、y、z、旋轉(zhuǎn)、俯仰、橫擺)上定位被攝目標(biāo),還原人眼視角的三維立體世界?;?D視覺傳感器采集的信息,不但有紋理(色彩)信息,還增加深度信息,也就是視場內(nèi)的空間幾何尺寸信息。這樣圍繞著物體、空間掃描一圈,就能得到點(diǎn)云圖和精準(zhǔn)的“1:1”還原的3D 模型。而有了這些信息作為輸入,應(yīng)用場景會大大增多,性能也會大幅提升。

圖|空間三維測量

來源:奧比中光官網(wǎng)

3D機(jī)器視覺技術(shù)分為兩個(gè)部分,即3D重構(gòu)技術(shù)和3D數(shù)據(jù)分析算法,前者獲取3D信息、重構(gòu)3D場景,后者對3D場景中的信息進(jìn)行理解。目前,3D重構(gòu)的常用技術(shù)類型有:被動3D視覺技術(shù)(分為單目3D、雙目3D 和多目3D,即分別使用一個(gè)、兩個(gè)和兩個(gè)以上相機(jī)組成立體視覺系統(tǒng))、激光3D掃描技術(shù)、結(jié)構(gòu)光3D技術(shù)、TOF相機(jī)技術(shù)等。3D重構(gòu)獲得的表征數(shù)據(jù),包括點(diǎn)云、體素、網(wǎng)格圖、深度圖等,通過3D數(shù)據(jù)分析算法進(jìn)行濾波、特征提取、分割、語義理解,從而實(shí)現(xiàn)識別、測量、定位和檢測等功能。

表1 3D視覺感知技術(shù)差異

來源:奧比中光

2.2、3D視覺常用技術(shù)對比

3D 視覺成像技術(shù)可分為光學(xué)和非光學(xué)成像方法。目前應(yīng)用最多的還是光學(xué)方法,包括:結(jié)構(gòu)光、飛行時(shí)間(ToF)、多目視覺激光掃描法、激光散斑法、干涉法、照相測量法、激光跟蹤法等等,常用的為前三種方法。

圖|三種3D視覺方案原理

來源:網(wǎng)絡(luò)、知乎、與非研究院整理

2.2.1、結(jié)構(gòu)光

結(jié)構(gòu)光:通過光學(xué)投射模塊將具有編碼信息的結(jié)構(gòu)光投射到物體表面,在被測物表面形成光條圖像。圖像采集系統(tǒng)采集光條圖像后,通過算法處理得出被測物表面的三維輪廓數(shù)據(jù),以還原目標(biāo)物體三維空間信息。結(jié)構(gòu)光技術(shù)是一種主動的三維測量技術(shù)。

特點(diǎn):由于結(jié)構(gòu)光是主動光,好處是昏暗環(huán)境和夜間可用。不需要根據(jù)場景的變化而有變化,降低了匹配的難度。但顯然在強(qiáng)光環(huán)境中會受到干擾,室外基本不可用。另外,由于主動結(jié)構(gòu)光是帶編碼的,所以多個(gè)結(jié)構(gòu)光相機(jī)同時(shí)使用也是有問題的。在實(shí)測中,結(jié)構(gòu)光在角度比較小的側(cè)面上反射比較嚴(yán)重,經(jīng)常出現(xiàn)比較大的黑洞,當(dāng)然黑色物體和玻璃是結(jié)構(gòu)光的大 BUG,一個(gè)吸光一個(gè)透光。

2.2.2、立體視覺法

立體視覺法:指從不同的視點(diǎn)獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息, 目前立體視覺 3D 可以通過單目、雙目、多目實(shí)現(xiàn)。雙目機(jī)器視覺是指使用兩個(gè) RGB 彩色相機(jī)采集圖像,并通過后端的雙目匹配和三角測量等算法,計(jì)算得到深度圖的技術(shù)方法。雙目技術(shù)使用的是物體本身的特征點(diǎn),由于每一次雙目匹配都面對不同的圖像,都需要重新提取特征點(diǎn),計(jì)算量非常大。雙目是一種被動的三維測量技術(shù)。

特點(diǎn):硬件復(fù)雜度較低,弱光或目標(biāo)特征不明顯時(shí)幾乎不可用。同時(shí),雙目相機(jī)的運(yùn)算復(fù)雜度也非常高,對硬件計(jì)算性能要求極高。因?yàn)橛?jì)算能力要求高,雙目相機(jī)極少在嵌入式系統(tǒng)設(shè)備中使用,雙目相機(jī)在通用場景中表現(xiàn)也并不太好, 像諸如 slam 導(dǎo)航等應(yīng)用,但在工業(yè)自動化領(lǐng)域和 x86 系統(tǒng)中,雙目相機(jī)應(yīng)用廣泛,因?yàn)楣I(yè)自動化中,雙目相機(jī)只要解決特定場景中的特定問題。

2.2.3、飛行時(shí)間(ToF)

飛行時(shí)間(ToF):由發(fā)射和反射光信號之間的時(shí)間延遲來測量,給定固定的光速。為了精確地測量時(shí)延,經(jīng)常使用短光脈沖。這種技術(shù)跟 3D 激光傳感器原理基本類似,只不過3D 激光傳感器是逐點(diǎn)掃描,而TOF 相機(jī)則是同時(shí)得到整幅圖像的深度信息。

特點(diǎn):和結(jié)構(gòu)光方式相比,ToF 并不需要對光的圖案做復(fù)雜解析,只需要反射回來即可,這大大的提高了魯棒性,深度信息還原度比結(jié)構(gòu)光好很多,點(diǎn)云的完整性更好。主要表現(xiàn)在:深度圖質(zhì)量要高于結(jié)構(gòu)光,抗強(qiáng)光的干擾能力也更強(qiáng)一些,精度也要更高一些。對于玻璃,是光技術(shù)的死穴,只能靠其他技術(shù)來彌補(bǔ)了。ToF速度高,但精度只有毫米級。ToF 技術(shù)的難度較高,成本也較高。

2.3、3D視覺傳感器

3D 視覺傳感器是由深度引擎芯片、深度引擎算法、通用或?qū)S酶泄庑酒?、專用光學(xué)系統(tǒng)、驅(qū)動及固件等組成的精密光學(xué)測量系統(tǒng),可以采集并輸出“人體、物體和空間”的三維矢量信息。

圖|視覺傳感器結(jié)構(gòu)

來源:奧比中光招股書

三、國內(nèi)外主要3D視覺企業(yè)

消費(fèi)級競爭對手主要為蘋果、華為、微軟、索尼等科技巨頭,也包括英飛凌、瑞芯微、華捷艾米等企業(yè)。微軟是業(yè)內(nèi)最早推出消費(fèi)級3D視覺傳感器的企業(yè),已推出結(jié)構(gòu)光、iToF 技術(shù)的 3D 視覺傳感器;蘋果、華為主要自研 3D視覺傳感器以服務(wù)于自家產(chǎn)品;索尼、三星借助自身在感光芯片方面的實(shí)力,推出iToF、dToF 技術(shù)相應(yīng)的感光芯片產(chǎn)品。英飛凌、瑞芯微、奧比中光、華捷艾米也向市場推出了各自研發(fā)的 3D 視覺傳感器產(chǎn)品。

表|3D視覺傳感器主要企業(yè)和產(chǎn)品

來源:奧比中光招股書(已上市)

目前3D視覺市場主要還是以外資品牌占據(jù)市場主流,蘋果、微軟、索尼、英特爾、三星等自研iTOF芯片或雙目3D芯片為主。國內(nèi)奧比中光市占率主導(dǎo)地位,芯片為自研,華為、瑞芯微也相繼有自研芯片推出,華捷艾米、歐菲光等也已經(jīng)開始切入相關(guān)市場。

四、總結(jié)

人形機(jī)器人視覺方案目前主要以結(jié)構(gòu)光、雙目或多目RGB、TOF等的組合方案為主。國外大廠已經(jīng)較早的布局和應(yīng)用,國內(nèi)市場還在逐步打開市場空間。

現(xiàn)階段國內(nèi)外人形機(jī)器人產(chǎn)業(yè)還處于0-1的階段,視覺方案的選擇比較多樣化,隨著出貨量的增長,技術(shù)的迭代升級,未來視覺方案也將會逐步優(yōu)化定型。3D視覺作為人形機(jī)器人最優(yōu)的視覺方案,也會跟隨人形機(jī)器人實(shí)現(xiàn)蓬勃發(fā)展。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
53073 1 Thomas & Betts Wire Terminal,
$0.8 查看
PMR209MC6100M047R30 1 KEMET Corporation RC Network, Isolated, 47ohm, 630V, 0.1uF, Through Hole Mount, 2 Pins, RADIAL LEADED, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$2.17 查看
X0405MF1AA2 1 STMicroelectronics 1.35A, 600V, SCR, PLASTIC, TO-202, 3 PIN
暫無數(shù)據(jù) 查看
特斯拉

特斯拉

Tesla 致力于通過電動汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過電動汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師,工科背景,11年行業(yè)研究經(jīng)歷。擅長從行業(yè)供需、量價(jià)、公司財(cái)務(wù)基本面等角度分析,洞悉電子行業(yè)未來發(fā)展方向,歡迎交流。