Waymo自2008年就開始研發(fā)自動駕駛,也是業(yè)內公認自動駕駛技術先行者,但在商業(yè)化道路上進展不利,只有軟硬一體才是自動駕駛的出路,所以自研芯片后的Waymo或許能翻身,雖然自研芯片有點晚了。
有關Waymo的自動駕駛訓練數(shù)據(jù)集(Waymo Open Dataset,簡稱WOD)或者說公開Benchmark有兩篇論文,一篇是2020年5月的《Scalability in Perception for Autonomous Driving: Waymo Open Dataset》,另一篇是2021年4月的《Large Scale Interactive Motion Forecasting for Autonomous Driving :The WAYMO OPEN MOTION DATASET》。
WOD也分成兩部分,一部分是Perception dataset,有2030個場景,目前最新版為2022年6月升級的v1.4;另一部分是Motion dataset,有目標軌跡追蹤和3D同步地圖,有103354個場景,目前最新版為2021年8月升級的v1.1版。
上表為Waymo 5個攝像頭參數(shù),最高只有200萬像素,而Waymo聲稱自己的無人車用了500萬像素的攝像頭,并且有些媒體聲稱使用了14個500萬像素攝像頭,顯然是夸張了,Waymo不會為測試數(shù)據(jù)集單獨搞一套傳感器配置,Waymo無人車的實際像素應該就是200萬。
坐標系方面,采用右手規(guī)則。全局坐標是East-North-Up體系,車輛姿態(tài)與全局坐標系定義為4*4變換矩陣。A vehicle pose is defined as a 4x4 transform matrix from the vehicle frame to the global frame。相機坐標系方面,使用外參矩陣,即從全局(世界)坐標系到相機坐標系的變換。激光雷達使用直角坐標系。
標注方面,每一個3D物體都有7自由度的標注,包括基于中央坐標點的長寬高以及3D Box的長寬高,還有航向角。當然還有物體的ID和分類。對于鳥瞰(BEV)3D目標,設置為5自由度,不需要基于中央坐標點的長寬高。
Waymo的3D自動標簽管線
感知WOD有2030個場景,分訓練和評估兩部分,主要在鳳凰城、山景城和舊金山采集,大部分為白天,天氣晴好。訓練集解壓縮后大小為812.7GB,驗證集為204.9GB。
感知WOD分4大類,3D目標檢測與追蹤,2D目標檢測與追蹤。
單一目標的測試基準線
多目標包含追蹤的測試基準線
WOD的感知測試數(shù)據(jù)集平平無奇,不過動作預測測試數(shù)據(jù)集可謂獨樹一幟,非常有水平。它包含103,354 segments,每個segment長度為20s,10Hz,包含object tracks和map data,這些segment又被分成9s的窗口,包括1s歷史和8s未來。覆蓋6個城市,1750公里的里程,570小時的駕駛時間。
對于無人駕駛來說,最難的就是預測行人或車輛的下一步軌跡,即行為預測或動作軌跡預測。這已經(jīng)超越了感知那個地步,但需要良好的3D感知和軌跡追蹤能力做基礎,行為預測通常都使用LTSM,而不是CNN。絕大多數(shù)數(shù)據(jù)集的核心還是感知,而Waymo要更進一步。
標注系統(tǒng)和感知數(shù)據(jù)集一樣,也是別出心裁的自動標簽系統(tǒng)。論文為《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》所謂4D就是加了時間戳。順便說一句,這篇論文不是Waymo的,而是Uber和多倫多大學的。
4D自動標簽系統(tǒng)
Waymo Open Motion Dataset示例
預測評價指標有平均位移誤差:Average displacement error(ADE),每個預測位置和每個真值位置之間的平均歐式距離差值。
終點位移誤差(Final displacement error,簡稱FDE):終點預測位置和終點真值位置之間的平均歐式距離差值。
空間重疊率(Overlap Rate):總重疊數(shù)與進行多模態(tài)預測次數(shù)的比值。一個樣本e對應的一次多模態(tài)預測中,最高置信度的預測里,每一個時間步step,一個對象與另一個真實情況或該預測情況的其他對象的3D邊界框存在重疊,則重疊數(shù)加1。
漏檢率(Miss Rate,簡稱MR):整個數(shù)據(jù)集在t時刻的錯誤比例。對于一個樣本,給定t時刻,所有K個聯(lián)合預測,都存在某個對象a的位置,其指示函數(shù)IsMatch(.)為0,則該時刻MR為1。
交互式interactive的成績就更差了,顯然預測目標軌跡的深度學習還有很長的路要走。
下一篇我們來解讀最接近實戰(zhàn)的數(shù)據(jù)集,安波福的nuScenes。