东京热加勒比高清av,亚洲免费闲人蜜桃

人類約70%的信息是通過(guò)人眼感知獲取的，未來(lái)的人形機(jī)器人也將和人類一樣，大量信息都將通過(guò)視覺(jué)感知獲取。視覺(jué)技術(shù)是機(jī)器人獲取環(huán)境信息的重要途經(jīng),隨著國(guó)內(nèi)外人形機(jī)器人的陸續(xù)發(fā)布，人形機(jī)器人的視覺(jué)感知技術(shù)越來(lái)越重要了。

人形機(jī)器人對(duì)環(huán)境感知有寬視場(chǎng)、高速度和高精度的各種要求，但是目前技術(shù)路徑尚未完全確定，各家都有自己的解決方案。特斯拉 Optimus的3D傳感模塊以多目視覺(jué)為主，全身搭載8個(gè)攝像頭，自研芯片FSD，純視覺(jué)方案硬件成本低，對(duì)軟件算法要求高。國(guó)內(nèi)廠商多采用3D相機(jī)+激光雷達(dá)方案，優(yōu)必選WALKERX的視覺(jué)模塊采用四目視覺(jué)+雙RGBD，小米CyberOne的Mi-Sense視覺(jué)系統(tǒng)采用iToF+RGB，達(dá)闥采用3D深度相機(jī)+RGB單目攝像頭+TOF相機(jī)+激光雷達(dá)的綜合方案，宇樹(shù)采用3D激光雷達(dá)+深度相機(jī)方案，追覓采用ToF+結(jié)構(gòu)光，智元A1采用 RGBD 相機(jī)。

究竟以上技術(shù)路徑是如何實(shí)現(xiàn)的？各種視覺(jué)方案又有哪些差異點(diǎn)？今天筆者將和大家一起學(xué)習(xí)探討人形機(jī)器人的視覺(jué)系統(tǒng)是如何實(shí)現(xiàn)對(duì)感知和交互的，以便大家對(duì)人形機(jī)器人視覺(jué)技術(shù)發(fā)展有更多了解和判斷。

一、人形機(jī)器人視覺(jué)方案

1.1、特斯拉人形視覺(jué)方案

特斯拉的純視覺(jué)傳感器方案的實(shí)現(xiàn)，離不開(kāi)多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu)。每輛特斯拉汽車擁有8個(gè)環(huán)繞車身、覆蓋周圍360°的攝像頭，來(lái)獲取交通信號(hào)燈、信號(hào)牌、匝道、路緣等周邊信息，為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了絕佳條件。

特斯拉開(kāi)發(fā)了“矢量空間”（Vector Space）技術(shù)，同時(shí)兼具了非凸優(yōu)化算法（Non-convex）、高維度兩大優(yōu)勢(shì)。該技術(shù)可以通過(guò)8個(gè)攝像頭輸入的數(shù)據(jù)為基礎(chǔ)繪制3D鳥瞰視圖，形成4D的空間和時(shí)間標(biāo)簽的“路網(wǎng)”以呈現(xiàn)道路等信息，幫助車輛把握駕駛環(huán)境，更精準(zhǔn)的尋找最優(yōu)駕駛路徑。同時(shí)，特斯拉自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。

圖| FSD計(jì)算機(jī)視覺(jué)技術(shù)

來(lái)源：特斯拉AI Day

特斯拉Optimus搭載了與特斯拉車輛相同的FSD技術(shù)以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù)，其大腦使用的是自研的AI訓(xùn)練 Dojo D1芯片和超級(jí)計(jì)算機(jī) Dojo。特斯拉FSD系統(tǒng)已可以實(shí)現(xiàn)每1.5毫秒2500次搜索的超高效率，預(yù)測(cè)可能出現(xiàn)的各種情況，并在其中找到最安全、最舒適、最快速的自動(dòng)駕駛路徑。在經(jīng)過(guò)完全自動(dòng)駕駛能力系統(tǒng)的實(shí)際應(yīng)用驗(yàn)證后，特斯拉強(qiáng)大的FSD計(jì)算機(jī)視覺(jué)技術(shù)已可直接應(yīng)用于機(jī)器人。

圖|特斯拉FSD芯片+D1芯片

來(lái)源：特斯拉AI Day

圖|小米Mi Sense 視覺(jué)技術(shù)

來(lái)源：小米官網(wǎng)

小米CyberOne的Mi-Sense視覺(jué)系統(tǒng)采用iToF+RGB方案。歐菲光同步發(fā)布自研的機(jī)器視覺(jué)深度相機(jī)模塊，主要由 iToF 模組、RGB 模組、可選的 IMU 模塊組成，產(chǎn)品在測(cè)量范圍內(nèi)精度高達(dá) 1%，應(yīng)用場(chǎng)景廣泛，可通過(guò)第三方實(shí)驗(yàn)室 IEC 60825-1 認(rèn)證，滿足激光安全 Class1 標(biāo)準(zhǔn)。iToF 技術(shù)是現(xiàn)在主流的 3D 視覺(jué)感知技術(shù)之一，歐菲光研發(fā)基于 iToF+RGB 深度測(cè)量技術(shù)的 3D 智能深度相機(jī)。

iToF無(wú)法獲取物體的顏色紋理信息，RGB相機(jī)可獲取物體豐富的顏色紋理信息，將RGB與iToF相結(jié)合既能得到物體的深度信息，又可獲取物體的顏色紋理信息，這可大大拓展其應(yīng)用領(lǐng)域。RGB信息可用于物體檢測(cè)識(shí)別，深度信息可用于建圖避障等，RGB+iToF在諸多領(lǐng)域可實(shí)現(xiàn)1+1>2的作用。

1.3、優(yōu)必選人形視覺(jué)方案

圖|優(yōu)必選人形視覺(jué)方案

來(lái)源：優(yōu)必選官網(wǎng)

優(yōu)必選WALKERX的視覺(jué)模塊創(chuàng)新升級(jí)四目系統(tǒng)及雙RGBD傳感器，采用胸部四目視覺(jué)，頭部+腰部雙RGBD，以及腰部4*毫米波雷達(dá)避障。

SLAM視覺(jué)導(dǎo)航自主路徑規(guī)劃：基于多目視覺(jué)傳感器的三維立體視覺(jué)定位采用Coarse-to-fine的多層規(guī)劃算法，第一視角實(shí)景AR導(dǎo)航交互及2.5D立體避障技術(shù)實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景下全局最優(yōu)路徑自主導(dǎo)航。實(shí)現(xiàn)定位精度10cm，導(dǎo)航精度20cm，精定位精度1cm。

基于深度學(xué)習(xí)的物體檢測(cè)與識(shí)別算法、人臉識(shí)別算法和跨風(fēng)格人臉數(shù)據(jù)生成技術(shù)，可在復(fù)雜環(huán)境中識(shí)別人臉、手勢(shì)、物體等信息，豐富準(zhǔn)確地理解和感知外部環(huán)境。

1.4、達(dá)闥人形視覺(jué)方案

圖|達(dá)闥人形視覺(jué)方案

來(lái)源：達(dá)闥官網(wǎng)

達(dá)闥人形頭部+腰部?jī)蓚€(gè)3D深度相機(jī)，前胸和后胸兩個(gè)RGB單目攝像頭，下半身暫時(shí)單點(diǎn)TOF相機(jī)+激光雷達(dá)的方案。

1.5、宇樹(shù)人形視覺(jué)方案

圖|宇樹(shù)人形視覺(jué)方案

來(lái)源：宇樹(shù)官網(wǎng)

宇樹(shù)目前采用頭部3D激光雷達(dá)+深度相機(jī)方案，相對(duì)最為簡(jiǎn)單。

二、視覺(jué)技術(shù)分析

2.1、3D 視覺(jué)技術(shù)

在過(guò)去的數(shù)十年中，2D 成像技術(shù)有了長(zhǎng)足的發(fā)展，分辨率從幾十萬(wàn)像素發(fā) 展到現(xiàn)在的上億像素，色彩還原更真實(shí)，逆光環(huán)境下也能通過(guò) HDR（高動(dòng)態(tài)光照渲染）技術(shù)提升圖像質(zhì)量。然而，2D 圖像僅能夠提供紋理（色彩）信息，無(wú)法提供實(shí)現(xiàn)更精準(zhǔn)識(shí)別、追蹤等功能所需的空間形貌、幾何尺寸、位姿等信息。

3D視覺(jué)技術(shù)相對(duì)與2D技術(shù)提供了更豐富的被攝目標(biāo)信息，可以在六個(gè)自由度（x、y、z、旋轉(zhuǎn)、俯仰、橫擺）上定位被攝目標(biāo)，還原人眼視角的三維立體世界?；?D視覺(jué)傳感器采集的信息，不但有紋理（色彩）信息，還增加深度信息，也就是視場(chǎng)內(nèi)的空間幾何尺寸信息。這樣圍繞著物體、空間掃描一圈，就能得到點(diǎn)云圖和精準(zhǔn)的“1:1”還原的3D 模型。而有了這些信息作為輸入，應(yīng)用場(chǎng)景會(huì)大大增多，性能也會(huì)大幅提升。

圖|空間三維測(cè)量

來(lái)源：奧比中光官網(wǎng)

3D機(jī)器視覺(jué)技術(shù)分為兩個(gè)部分，即3D重構(gòu)技術(shù)和3D數(shù)據(jù)分析算法，前者獲取3D信息、重構(gòu)3D場(chǎng)景，后者對(duì)3D場(chǎng)景中的信息進(jìn)行理解。目前，3D重構(gòu)的常用技術(shù)類型有：被動(dòng)3D視覺(jué)技術(shù)（分為單目3D、雙目3D 和多目3D，即分別使用一個(gè)、兩個(gè)和兩個(gè)以上相機(jī)組成立體視覺(jué)系統(tǒng)）、激光3D掃描技術(shù)、結(jié)構(gòu)光3D技術(shù)、TOF相機(jī)技術(shù)等。3D重構(gòu)獲得的表征數(shù)據(jù)，包括點(diǎn)云、體素、網(wǎng)格圖、深度圖等，通過(guò)3D數(shù)據(jù)分析算法進(jìn)行濾波、特征提取、分割、語(yǔ)義理解，從而實(shí)現(xiàn)識(shí)別、測(cè)量、定位和檢測(cè)等功能。

表1 3D視覺(jué)感知技術(shù)差異

來(lái)源：奧比中光

2.2、3D視覺(jué)常用技術(shù)對(duì)比

3D 視覺(jué)成像技術(shù)可分為光學(xué)和非光學(xué)成像方法。目前應(yīng)用最多的還是光學(xué)方法，包括：結(jié)構(gòu)光、飛行時(shí)間(ToF)、多目視覺(jué)激光掃描法、激光散斑法、干涉法、照相測(cè)量法、激光跟蹤法等等，常用的為前三種方法。

圖|三種3D視覺(jué)方案原理

來(lái)源：網(wǎng)絡(luò)、知乎、與非研究院整理

2.2.1、結(jié)構(gòu)光

結(jié)構(gòu)光：通過(guò)光學(xué)投射模塊將具有編碼信息的結(jié)構(gòu)光投射到物體表面，在被測(cè)物表面形成光條圖像。圖像采集系統(tǒng)采集光條圖像后，通過(guò)算法處理得出被測(cè)物表面的三維輪廓數(shù)據(jù)，以還原目標(biāo)物體三維空間信息。結(jié)構(gòu)光技術(shù)是一種主動(dòng)的三維測(cè)量技術(shù)。

特點(diǎn)：由于結(jié)構(gòu)光是主動(dòng)光，好處是昏暗環(huán)境和夜間可用。不需要根據(jù)場(chǎng)景的變化而有變化，降低了匹配的難度。但顯然在強(qiáng)光環(huán)境中會(huì)受到干擾，室外基本不可用。另外，由于主動(dòng)結(jié)構(gòu)光是帶編碼的，所以多個(gè)結(jié)構(gòu)光相機(jī)同時(shí)使用也是有問(wèn)題的。在實(shí)測(cè)中，結(jié)構(gòu)光在角度比較小的側(cè)面上反射比較嚴(yán)重，經(jīng)常出現(xiàn)比較大的黑洞，當(dāng)然黑色物體和玻璃是結(jié)構(gòu)光的大 BUG，一個(gè)吸光一個(gè)透光。

2.2.2、立體視覺(jué)法

立體視覺(jué)法：指從不同的視點(diǎn)獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息，目前立體視覺(jué) 3D 可以通過(guò)單目、雙目、多目實(shí)現(xiàn)。雙目機(jī)器視覺(jué)是指使用兩個(gè) RGB 彩色相機(jī)采集圖像，并通過(guò)后端的雙目匹配和三角測(cè)量等算法，計(jì)算得到深度圖的技術(shù)方法。雙目技術(shù)使用的是物體本身的特征點(diǎn)，由于每一次雙目匹配都面對(duì)不同的圖像，都需要重新提取特征點(diǎn)，計(jì)算量非常大。雙目是一種被動(dòng)的三維測(cè)量技術(shù)。

特點(diǎn)：硬件復(fù)雜度較低，弱光或目標(biāo)特征不明顯時(shí)幾乎不可用。同時(shí)，雙目相機(jī)的運(yùn)算復(fù)雜度也非常高，對(duì)硬件計(jì)算性能要求極高。因?yàn)橛?jì)算能力要求高，雙目相機(jī)極少在嵌入式系統(tǒng)設(shè)備中使用，雙目相機(jī)在通用場(chǎng)景中表現(xiàn)也并不太好，像諸如 slam 導(dǎo)航等應(yīng)用，但在工業(yè)自動(dòng)化領(lǐng)域和 x86 系統(tǒng)中,雙目相機(jī)應(yīng)用廣泛，因?yàn)楣I(yè)自動(dòng)化中，雙目相機(jī)只要解決特定場(chǎng)景中的特定問(wèn)題。

2.2.3、飛行時(shí)間(ToF)

飛行時(shí)間(ToF)：由發(fā)射和反射光信號(hào)之間的時(shí)間延遲來(lái)測(cè)量，給定固定的光速。為了精確地測(cè)量時(shí)延，經(jīng)常使用短光脈沖。這種技術(shù)跟 3D 激光傳感器原理基本類似，只不過(guò)3D 激光傳感器是逐點(diǎn)掃描，而TOF 相機(jī)則是同時(shí)得到整幅圖像的深度信息。

特點(diǎn)：和結(jié)構(gòu)光方式相比，ToF 并不需要對(duì)光的圖案做復(fù)雜解析，只需要反射回來(lái)即可，這大大的提高了魯棒性，深度信息還原度比結(jié)構(gòu)光好很多，點(diǎn)云的完整性更好。主要表現(xiàn)在：深度圖質(zhì)量要高于結(jié)構(gòu)光，抗強(qiáng)光的干擾能力也更強(qiáng)一些，精度也要更高一些。對(duì)于玻璃，是光技術(shù)的死穴，只能靠其他技術(shù)來(lái)彌補(bǔ)了。ToF速度高，但精度只有毫米級(jí)。ToF 技術(shù)的難度較高，成本也較高。

2.3、3D視覺(jué)傳感器

3D 視覺(jué)傳感器是由深度引擎芯片、深度引擎算法、通用或?qū)Ｓ酶泄庑酒?、專用光學(xué)系統(tǒng)、驅(qū)動(dòng)及固件等組成的精密光學(xué)測(cè)量系統(tǒng)，可以采集并輸出“人體、物體和空間”的三維矢量信息。

圖|視覺(jué)傳感器結(jié)構(gòu)

來(lái)源：奧比中光招股書

三、國(guó)內(nèi)外主要3D視覺(jué)企業(yè)

消費(fèi)級(jí)競(jìng)爭(zhēng)對(duì)手主要為蘋果、華為、微軟、索尼等科技巨頭，也包括英飛凌、瑞芯微、華捷艾米等企業(yè)。微軟是業(yè)內(nèi)最早推出消費(fèi)級(jí)3D視覺(jué)傳感器的企業(yè)，已推出結(jié)構(gòu)光、iToF 技術(shù)的 3D 視覺(jué)傳感器；蘋果、華為主要自研 3D視覺(jué)傳感器以服務(wù)于自家產(chǎn)品；索尼、三星借助自身在感光芯片方面的實(shí)力，推出iToF、dToF 技術(shù)相應(yīng)的感光芯片產(chǎn)品。英飛凌、瑞芯微、奧比中光、華捷艾米也向市場(chǎng)推出了各自研發(fā)的 3D 視覺(jué)傳感器產(chǎn)品。

表|3D視覺(jué)傳感器主要企業(yè)和產(chǎn)品

來(lái)源：奧比中光招股書（已上市）

目前3D視覺(jué)市場(chǎng)主要還是以外資品牌占據(jù)市場(chǎng)主流，蘋果、微軟、索尼、英特爾、三星等自研iTOF芯片或雙目3D芯片為主。國(guó)內(nèi)奧比中光市占率主導(dǎo)地位，芯片為自研，華為、瑞芯微也相繼有自研芯片推出，華捷艾米、歐菲光等也已經(jīng)開(kāi)始切入相關(guān)市場(chǎng)。

四、總結(jié)

人形機(jī)器人視覺(jué)方案目前主要以結(jié)構(gòu)光、雙目或多目RGB、TOF等的組合方案為主。國(guó)外大廠已經(jīng)較早的布局和應(yīng)用，國(guó)內(nèi)市場(chǎng)還在逐步打開(kāi)市場(chǎng)空間。

現(xiàn)階段國(guó)內(nèi)外人形機(jī)器人產(chǎn)業(yè)還處于0-1的階段，視覺(jué)方案的選擇比較多樣化，隨著出貨量的增長(zhǎng)，技術(shù)的迭代升級(jí)，未來(lái)視覺(jué)方案也將會(huì)逐步優(yōu)化定型。3D視覺(jué)作為人形機(jī)器人最優(yōu)的視覺(jué)方案，也會(huì)跟隨人形機(jī)器人實(shí)現(xiàn)蓬勃發(fā)展。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
MMBT2222ALT3G	1	onsemi	NPN Bipolar Transistor, SOT-23 (TO-236) 3 LEAD, 10000-REEL	ECAD模型下載ECAD模型	$3.85	查看
DT04-6P	1	TE Connectivity	CONNECTOR, 6 CONTACT(S), MALE, COMBINATION LINE CONNECTOR, CRIMP, RECEPTACLE	ECAD模型下載ECAD模型	$2.73	查看
23AR5KLFTR	1	TT electronics / BI Technologies	RESISTOR, TRIMMER, CERMET, 1 TURN(S), 0.25W, 5000ohm, 4MM, SQUARE, 3 PINS, ROHS COMPLIANT		$1.54	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

MMBT2222ALT3G

onsemi

NPN Bipolar Transistor, SOT-23 (TO-236) 3 LEAD, 10000-REEL