加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

Waymo如何進(jìn)行3D物體檢測?

2022/04/12
370
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

自動駕駛汽車(AV)是如何觀看外部世界的?

你可能聽說過LiDAR或其他奇怪的攝像頭。但它們是如何工作的,它們?nèi)绾文芸吹竭@個世界,與人類相比,它們到底看到了什么?如果我們想讓AV上路,了解它們的工作原理是至關(guān)重要的,尤其是如果你在政府工作參與到制定法規(guī),或作為被服務(wù)的對象。

我們通過Tesla AI DAY了解過特斯拉的車輛是如何工作的,但它們與傳統(tǒng)的AV不同。特斯拉只使用攝像頭來了解世界,而大多數(shù)其它公司,如Waymo,使用普通攝像頭和3D LiDAR。這些LiDAR相當(dāng)簡單易懂,它們不會像普通攝像頭那樣產(chǎn)生圖像,而是產(chǎn)生3D點云。LiDAR測量物體之間的距離,計算它們投射到物體上的脈沖激光的飛行時間。

這樣一來,它們就會產(chǎn)生很少的數(shù)據(jù)點,這些數(shù)據(jù)點都是有價值的、準(zhǔn)確的距離信息,正如你在這里看到的。這些數(shù)據(jù)點被稱為點云,它只是意味著我們看到的只是在相應(yīng)位置上的許多點,創(chuàng)造了某種世界的3D模型。

在這里,你可以看到右邊的LiDAR并不是那么精確地了解它所看到的東西,但它只用了很少的信息便獲得了解深信息,這對于有效地實時計算數(shù)據(jù)是完美的。

這種最小的數(shù)據(jù)量和高空間精度是完美的,因為加上RGB圖像,如左圖所示,我們既有準(zhǔn)確的距離信息,又有單獨使用LiDAR數(shù)據(jù)所缺乏的準(zhǔn)確物體信息,特別是遠(yuǎn)處的物體或人。這就是為什么Waymo和其它AV公司使用這兩種傳感器

盡管如此,我們?nèi)绾尾拍苡行У亟Y(jié)合這些信息,并讓車輛理解這些信息?而車輛最終看到的是什么?只有那些點嗎?這對在道路上行駛來說足夠了嗎?我們將通過Waymo和Google Research的新研究論文來研究這個問題,該論文名為“4D-Net: Learning Multi-Modal Alignment for 3D and Image Inputs in Time”。

這篇論文總結(jié)到,“我們提出了4D-Net,它學(xué)會了如何結(jié)合3D點云和RGB攝像頭圖像,以便在自動駕駛中廣泛地應(yīng)用3D物體檢測。”

這就是我們所說的3D物體檢測。這也是汽車最終會看到的東西。這是一個非常準(zhǔn)確的車輛周圍世界的表現(xiàn),所有物體都出現(xiàn)并被精確識別。

這看起來很酷。但更有趣的是,他們是如何得到這個結(jié)果的?

他們使用LiDAR數(shù)據(jù)(PCiT,Point Clouds in Time)和普通攝像頭(或這里稱為RGB視頻)制作了這個視圖。這些都是四維輸入,就像我們?nèi)祟惪创屠斫馐澜缫粯?。這四個維度來自拍攝的視頻,因此車輛可以訪問過去的幀幫助理解上下文和對象,以猜測未來的行為,就像我們一樣,創(chuàng)造了第四維度。其他三個是我們所熟悉的3D空間。

我們把這項任務(wù)稱為場景理解,它在計算機(jī)視覺中得到了廣泛的研究,并隨著該領(lǐng)域和機(jī)器學(xué)習(xí)算法的最新進(jìn)展而取得了許多進(jìn)步。在AV中,它也是至關(guān)重要的,我們希望對場景有一個近乎完美的理解。

如果我們回到上面看到的網(wǎng)絡(luò),你可以看到這兩個網(wǎng)絡(luò)總是通過連接互相“交談”。這主要是因為當(dāng)我們拍攝圖像時,在鏡頭中有不同距離和不同比例的物體。

你面前的車看起來會比遠(yuǎn)處的車大得多,但你仍然需要考慮這兩方面。

就像我們一樣,當(dāng)我們看到遠(yuǎn)處的人,感覺是自己的朋友,但等走近了確定后才會喊他的名字,對于這種遠(yuǎn)處的物體,車輛會缺乏細(xì)節(jié)。

為了解決這個問題,我們將從網(wǎng)絡(luò)的不同層次中提取和分享信息。在整個網(wǎng)絡(luò)中共享信息是一個強大的解決方案,因為神經(jīng)網(wǎng)絡(luò)使用固定大小的小檢測器來壓縮圖像,我們越深入到網(wǎng)絡(luò)。

意味著早期的層將能夠檢測到小物體,且只能檢測到大物體的邊緣或部分。更深的層將失去小物體,但能夠非常精確地檢測大物體。

這種方法的主要挑戰(zhàn)是通過這些連接將這兩種不同類型的信息結(jié)合起來,LiDAR 3D空間數(shù)據(jù)和更常規(guī)的RGB幀。如前所述,在所有的網(wǎng)絡(luò)步驟中使用這兩種信息,是更好地理解整個場景的最好方法。

但我們?nèi)绾尾拍軐蓚€不同的信息流合并起來,并有效地利用時間維度?這兩個分支之間的數(shù)據(jù)轉(zhuǎn)換是網(wǎng)絡(luò)在訓(xùn)練過程中以一種有監(jiān)督的方式學(xué)習(xí)的,其過程與self-attention機(jī)制類似,試圖重新創(chuàng)建世界的真實模型。但是為了促進(jìn)這種數(shù)據(jù)轉(zhuǎn)換,他們使用了一個叫做PointPillars的模型,它采用點云并給出一個二維的表示。

你可以把它看作是點云的偽圖像,正如他們所說的那樣,創(chuàng)造出某種程度上代表點云的常規(guī)圖像,其屬性與我們在其他分支中的RGB圖像相同。像素不是RGB的顏色,而是簡單地代表物體的深度和位置(x,y,z)坐標(biāo)。這個偽圖像也確實非常稀疏,這意味著這種表示的信息只在重要物體周圍密集,而且很可能對模型有用。關(guān)于時間,我們只是在輸入圖像中設(shè)置了第四維來跟蹤幀。

我們看到的這兩個分支是卷積神經(jīng)網(wǎng)絡(luò),它們對圖像進(jìn)行編碼,然后對這些編碼信息進(jìn)行解碼,重新創(chuàng)建我們在這里看到的3D表示。因此,這兩個分支都使用了非常相似的編碼器,彼此共享信息,并使用解碼器重建世界的3D模型。

這就是Waymo車輛如何看世界的,通過我們在上圖右邊看到的這些世界的3D模型。它可以在164ms內(nèi)處理32個點云和16個RGB幀,產(chǎn)生比其他方法更好的結(jié)果。這看起來可能沒什么,所以我們可以把它與次好的方法進(jìn)行比較,后者的精確度較低,需要300ms,處理時間幾乎是兩倍。

[參考文章]Combine Lidar and Cameras for 3D object detection - Waymo

Waymo

Waymo

Waycom,第一家替代電信運營商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話。

Waycom,第一家替代電信運營商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄