加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入

Waymo的自動駕駛訓練數(shù)據(jù)集WOD

2022/10/15
2619
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

Waymo自2008年就開始研發(fā)自動駕駛,也是業(yè)內公認自動駕駛技術先行者,但在商業(yè)化道路上進展不利,只有軟硬一體才是自動駕駛的出路,所以自研芯片后的Waymo或許能翻身,雖然自研芯片有點晚了。

有關Waymo的自動駕駛訓練數(shù)據(jù)集(Waymo Open Dataset,簡稱WOD)或者說公開Benchmark有兩篇論文,一篇是2020年5月的《Scalability in Perception for Autonomous Driving: Waymo Open Dataset》,另一篇是2021年4月的《Large Scale Interactive Motion Forecasting for Autonomous Driving :The WAYMO OPEN MOTION DATASET》。

WOD也分成兩部分,一部分是Perception dataset,有2030個場景,目前最新版為2022年6月升級的v1.4;另一部分是Motion dataset,有目標軌跡追蹤和3D同步地圖,有103354個場景,目前最新版為2021年8月升級的v1.1版。

谷歌舉辦過WayMo Open Dataset Challenge,響應者不少,3D Detection的第一名是國內知名芯片公司地平線,第二名是香港中文大學,第三名則是致力商用車無人駕駛的圖森未來。2D Detection方面,圖森未來、同濟大學和中科院第一,地平線第二,中山大學和華為諾亞方舟實驗室第三。Waymo在業(yè)內的地位可見一斑。
首先來看Perception dataset。
 

Waymo的傳感器布局,有多達5個激光雷達,前面左中右各一個,車頂一個,車尾一個。5個攝像頭也都在車頂。

上表的“Ours”就是Waymo的數(shù)據(jù)集,這是4個數(shù)據(jù)集的對比,KITTI用的是一臺Velodyne的HDL-64E 64線激光雷達,早期產(chǎn)品單回波下其每秒有130萬點輸出,后來的HDL-64E S3雙回波是220萬點每秒輸出。未知KITTI是用的單回波還是雙回波,早期激光雷達單回波的可能性大一點。盡管Waymo用了5個激光雷達,但每幀平均點數(shù)比KITTI沒高太多,并且Waymo的5個激光雷達均是雙回波。

上表為Waymo激光雷達的參數(shù),并未公布每秒輸出點數(shù),Waymo自制的激光雷達應該不如Velodyne的HDL-64E 。HDL-64E的VFOV是+2°至-24.8°,垂直角分辨率是0.4°,Waymo的VFOV是20°,如果也是64線的話,那么垂直角度分辨率應該是0.3°。

上表為Waymo 5個攝像頭參數(shù),最高只有200萬像素,而Waymo聲稱自己的無人車用了500萬像素的攝像頭,并且有些媒體聲稱使用了14個500萬像素攝像頭,顯然是夸張了,Waymo不會為測試數(shù)據(jù)集單獨搞一套傳感器配置,Waymo無人車的實際像素應該就是200萬。

坐標系方面,采用右手規(guī)則。全局坐標是East-North-Up體系,車輛姿態(tài)與全局坐標系定義為4*4變換矩陣。A vehicle pose is defined as a 4x4 transform matrix from the vehicle frame to the global frame。相機坐標系方面,使用外參矩陣,即從全局(世界)坐標系到相機坐標系的變換。激光雷達使用直角坐標系。

標注方面,每一個3D物體都有7自由度的標注,包括基于中央坐標點的長寬高以及3D Box的長寬高,還有航向角。當然還有物體的ID和分類。對于鳥瞰(BEV)3D目標,設置為5自由度,不需要基于中央坐標點的長寬高。

標注方面,考慮到了人工標注費時費力,和華為一樣,Waymo也有半監(jiān)督學習,也就是偽標簽學習,也有叫自動標簽系統(tǒng),這些非人工標注的自然是偽標簽,但其也并非完全的毫無根據(jù)。首先,在人工標注真值的數(shù)據(jù)上訓練模型,然后使用經(jīng)過訓練的模型來預測無標簽數(shù)據(jù)的標簽,從而創(chuàng)建偽標簽。此外,將標簽數(shù)據(jù)和新生成的偽標簽數(shù)據(jù)結合起來作為新的訓練數(shù)據(jù)。大量使用自動標簽或偽標簽就是半監(jiān)督學習。這樣的結果肯定不如全人工標注來得好,可是就算Waymo財大氣粗也得考慮成本,這種3D目標標注是需要標注工具的,且異常枯燥無味,至少要理科院校的大一學生才能勝任,同時還要心細,不嫌枯燥,這種人是不好找的,成本不低。

Waymo的3D自動標簽管線

與其他家不同的是Waymo使用非板載系統(tǒng)進行自動標簽,Waymo認為板載系統(tǒng)資源受到限制,效果不會太好,所以稱之為《Offboard 3D Object Detection from Point Cloud Sequences》。

感知WOD有2030個場景,分訓練和評估兩部分,主要在鳳凰城、山景城和舊金山采集,大部分為白天,天氣晴好。訓練集解壓縮后大小為812.7GB,驗證集為204.9GB。

感知WOD分4大類,3D目標檢測與追蹤,2D目標檢測與追蹤。

單一目標的測試基準線

多目標包含追蹤的測試基準線

高于基準線就可算優(yōu)秀,Waymo對車輛檢測IoU設置為0.7,行人為0.5,行人的閾值較低,這也可看出行人檢測難度很高。

WOD的感知測試數(shù)據(jù)集平平無奇,不過動作預測測試數(shù)據(jù)集可謂獨樹一幟,非常有水平。它包含103,354 segments,每個segment長度為20s,10Hz,包含object tracks和map data,這些segment又被分成9s的窗口,包括1s歷史和8s未來。覆蓋6個城市,1750公里的里程,570小時的駕駛時間。

包含場景預測和動作預測的數(shù)據(jù)集對比,“Ours”就是Waymo,Lyft雖有1118小時,但只有10公里,樣本量太少了。Argo的時間太短,只有5秒,前后關聯(lián)性不明顯,缺乏預測的意義。有3D Box標注的只有Waymo和安波福,但安波福的幀率太低了,只有2Hz,就算市區(qū)低速場景也太低。綜合看只有Waymo的場景預測和動作預測的數(shù)據(jù)集才真正有意義。Waymo覆蓋六個城市,包括鳳凰城、舊金山、西雅圖、山景城、底特律和洛杉磯。

對于無人駕駛來說,最難的就是預測行人或車輛的下一步軌跡,即行為預測或動作軌跡預測。這已經(jīng)超越了感知那個地步,但需要良好的3D感知和軌跡追蹤能力做基礎,行為預測通常都使用LTSM,而不是CNN。絕大多數(shù)數(shù)據(jù)集的核心還是感知,而Waymo要更進一步。 

數(shù)據(jù)集中訓練占70%,包括未來軌跡真值,validation占15%,測試占15%。每個場景有20秒時間,Scenario代表一個場景,也就是一段時間內的交通情況,包括自動駕駛車自身,其它的交通參與者(車輛、行人),以及交通燈在20s內的軌跡和狀態(tài),同時還包括了道路信息即地圖。也就是說Scenario是一條數(shù)據(jù)的最小單元。從20秒內抽出9.1秒的時間窗口,頻率為10Hz,即91幀,10個歷史樣本,1個現(xiàn)在時樣本,80個未來幀,也就是說要預測未來8秒的行動軌跡,Waymo認為預測時間越長越安全。

標注系統(tǒng)和感知數(shù)據(jù)集一樣,也是別出心裁的自動標簽系統(tǒng)。論文為《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》所謂4D就是加了時間戳。順便說一句,這篇論文不是Waymo的,而是Uber和多倫多大學的。

4D自動標簽系統(tǒng)

Waymo Open Motion Dataset示例

預測評價指標有平均位移誤差:Average displacement error(ADE),每個預測位置和每個真值位置之間的平均歐式距離差值。

終點位移誤差(Final displacement error,簡稱FDE):終點預測位置和終點真值位置之間的平均歐式距離差值。

空間重疊率(Overlap Rate):總重疊數(shù)與進行多模態(tài)預測次數(shù)的比值。一個樣本e對應的一次多模態(tài)預測中,最高置信度的預測里,每一個時間步step,一個對象與另一個真實情況或該預測情況的其他對象的3D邊界框存在重疊,則重疊數(shù)加1。

漏檢率(Miss Rate,簡稱MR):整個數(shù)據(jù)集在t時刻的錯誤比例。對于一個樣本,給定t時刻,所有K個聯(lián)合預測,都存在某個對象a的位置,其指示函數(shù)IsMatch(.)為0,則該時刻MR為1。

平均精度期望(mAP):先對每個對象的真實軌跡按定義的運動方向分為8類(buckets),用上面的IsMatch(.)來定義TP,F(xiàn)P等(但是對于都Match的情況,僅認為置信度高的為TP),在各類內按置信度排序TP、FP后,根據(jù)各個TP的準確度(precision)求平均(置信度越高的TP排在前面,對AP的影響越大),再對各個類別的AP求算數(shù)平均。

Waymo的Baseline基線成績,rg代表道路拓撲,ts代表交通信號,hi代表high-order interactions,rg基本可看做高精度地圖,這對模型預測很有幫助。mAP的值遠低于3D目標檢測,顯然預測目標軌跡的深度學習還非常不成熟。

交互式interactive的成績就更差了,顯然預測目標軌跡的深度學習還有很長的路要走。

下一篇我們來解讀最接近實戰(zhàn)的數(shù)據(jù)集,安波福的nuScenes。

Waymo

Waymo

Waycom,第一家替代電信運營商IDF中的云,新阿基坦。電信、主機和信息管理器。100%云電話。

Waycom,第一家替代電信運營商IDF中的云,新阿基坦。電信、主機和信息管理器。100%云電話。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄