自動駕駛,作為人工智能領域的掌上明珠,是需要經過大量的數(shù)據(jù)學習和數(shù)據(jù)訓練才能煥發(fā)光彩的。而數(shù)據(jù)的采集成本之高、難度之大,又讓人望而卻步。
近日,華為諾亞方舟實驗室聯(lián)合中山大學發(fā)布了新一代2D自動駕駛數(shù)據(jù)集SODA10M數(shù)據(jù)集。SODA10M擁有數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)多樣性強、泛化能力強三個特點。華為諾亞方舟實驗室計劃將基于這個數(shù)據(jù)集開放2D自動駕駛挑戰(zhàn)賽,并且會設立獎項和獎金。
1、規(guī)模10倍于Waymo,業(yè)內最大
在“規(guī)模”方面,SODA10M 比現(xiàn)有的BDD100K和Waymo等自動駕駛數(shù)據(jù)集大十倍,包含1000萬張無標注的道路場景圖像,2萬個帶標注的高質量2D邊界框,擁有更多可供自動駕駛汽車學習的數(shù)據(jù)。
2、多樣性4個季節(jié)32個城市
在“多樣性”方面,SODA10M數(shù)據(jù)集中的圖片覆蓋了4個不同的季節(jié)和32個城市。
這些照片是在各種條件下拍攝的,晴天雨天、白天黑夜、城市高速…..
1000萬張無標注圖片來自32個城市,囊括了國內大部分地區(qū),2萬張帶標注的圖片,直接標出了Pedestrian、Cyclist、Car、Truck、Tram、Tricycle這6種主要的人車場景,以供自動駕駛汽車如何應對各種情況。
據(jù)悉,華為是通過眾包的方式,把采集任務分發(fā)給上萬名出租車司機,由司機拍照或行車記錄儀完成圖片采集。
3、泛化專注自/半監(jiān)督,用于ICCV2021 SSLAD挑戰(zhàn)賽
在“泛化”方面,SODA10M數(shù)據(jù)集提供了一組卓越的數(shù)據(jù),可用于預訓練自動駕駛算法。這是由于數(shù)據(jù)集的多樣性和大小,當使用MoCov1時,這導致比Waymo或Cityscapes等其他現(xiàn)有數(shù)據(jù)集有更好的泛化能力。
對比Waymo自動駕駛數(shù)據(jù)集和ImageNet自監(jiān)督算法數(shù)據(jù)集,SODA10M表現(xiàn)優(yōu)異。華為分別從目標檢測,BDD100K,Cityscapes語義分割入手,結果SODA10M的自監(jiān)督訓練效果與ImageNet相仿,明顯優(yōu)于Waymo。
研究論文表明,SODA10M 可以作為訓練和評估不同自/半監(jiān)督學習方法的有前途的數(shù)據(jù)集。除了標準化評估之外,這還可以促進對先進技術的探索,以幫助推動自動駕駛系統(tǒng)向前發(fā)展。
后臺回復“華為數(shù)據(jù)集”獲取干貨~
論文:
https://arxiv.org/pdf/2106.11118.pdf
數(shù)據(jù)集:
https://soda-2d.github.io/index.html
項目:
https://sslad2021.github.io/index.html
挑戰(zhàn):
https://sslad2021.github.io/pages/challenge.html