加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

地平線Sparse4D與特斯拉對比

2023/11/20
4962
閱讀需 19 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

目前學術圈還是用“打榜”來對自動駕駛算法評分,所謂“打榜”是指在某一數(shù)據(jù)集上利用其訓練數(shù)據(jù)集測試算法的優(yōu)劣勢,目前自動駕駛圈內最常用的打榜數(shù)據(jù)集是安波福Aptiv旗下的nuScenes。nuScenes數(shù)據(jù)集的任務包括六大類,分別是3D目標檢測(Detection)、目標追蹤(Tracking)、目標軌跡預測(Prediction)、激光雷達目標分割(Lidar Segmentation)、全景(Panoptic)、決策(Planning)。

其中,3D目標檢測是自動駕駛最基礎的任務,全球有近300個團隊或企業(yè)參加了比試,也是全球自動駕駛數(shù)據(jù)集參賽者最多的,足見其權威性。華為的TransFusion出自2021年10月,當時也曾在nuScenes數(shù)據(jù)集上打榜,并奪得第一名的位置,不過最近華為沒有打榜。

3D目標檢測(Detection)又可分為融合算法和單一傳感器算法,其中純視覺算法第一名就是地平線Sparse4D,NDS得分高達0.719;純激光雷達算法第一名是浪潮信息和中科院的Real-Aug++,NDS得分是0.744;而激光雷達和視覺融合的第一名是零跑汽車的EA-LSS,NDS得分0.776。不難看出傳感器融合性能提升非常有限。很多人會說,特斯拉才是純視覺第一名,不過根據(jù)特斯拉AI Day的資料,特斯拉目標感知算法骨干是META開發(fā)的Regnet,脖頸是谷歌的BiFPN,感測頭是Transformer,但特斯拉描述的比較模糊,Transformer似乎只是2D到BEV變換。特斯拉的純視覺基礎似乎是來自Facebook的論文《End-to-End Object Detection with Transformers》(發(fā)表于2020年5月),稀疏化之后就是DETR3D,2021年10月打榜(實際DETR3D在2020年初就有了),DETR3D曾經打榜,NDS得分0.479,在當年確實是第一,不過第一的位置只保持了近大半年。

再就是什么是所謂端到端。傳統(tǒng)的自動駕駛系統(tǒng)通常會采用級聯(lián)式的架構,在模塊與模塊之間通常傳遞的是結構化信息,同時在系統(tǒng)內存在著海量人工設計的復雜規(guī)則。這使得整體的自動駕駛系統(tǒng)復雜性高、難以聯(lián)合優(yōu)化以及迭代周期比較長。而端到端的設計思路則帶來了全新的可能性。在端到端架構中,首先各個主要的模塊都是基于神經網絡的形式設計;其次模塊間也不再只是傳遞結構化信息,而是同時傳遞稀疏實例特征表示,這使得從感知到規(guī)控的整體系統(tǒng)可以進行聯(lián)合優(yōu)化;最終的決策規(guī)劃模塊也能從更加靠前的階段獲得更豐富的信息。BEV就是端到端的典型代表。

還有一種徹底的端到端,就是英偉達在2016年的論文《End to End Learning for Self-Driving Cars》,不產生中間結果,可以直接通過圖像輸入,直接輸出控制信號的徹底端到端技術路線。貌似很高大上,不過神經網絡或者說AI本身就是黑盒,加上這個徹底黑盒的流程,完全不具備任何可解釋性,成敗完全取決于運氣,無法迭代,因此2020年以后再也無人提及。從自動駕駛產品安全性的角度來看,把每個模塊都網絡化并串聯(lián)在一起的技術路線,會更加可靠可行,感知的結果必須有顯式的。

與科研機構不同,地平線是要考慮產品落地商業(yè)化的,從名字就可看出,地平線是要“稀疏”,從圖像空間到BEV空間的轉換,是稠密特征到稠密特征的重新排列組合,計算量比較大,與圖像尺寸以及BEV特征圖尺寸成正相關。在大家常用的nuScenes 數(shù)據(jù)中,感知范圍通常是長寬 [-50m, +50m] 的方形區(qū)域,然而在實際場景中,我們通常需要達到單向100m,甚至200m的感知距離。若要保持BEV Grid 的分辨率不變,則需要大大增加BEV 特征圖的尺寸,從而使得端上計算負擔和帶寬負擔都過重;若保持BEV特征圖的尺寸不變,則需要使用更粗的BEV Grid,感知精度就會下降。因此,在車端有限的算力條件下,BEV 方案通常難以實現(xiàn)遠距離感知和高分辨率特征的平衡。此外,BEV 空間可以看作是壓縮了高度信息的3D空間,這使得BEV范式的方法難以直接完成2D相關的任務,如標志牌和紅綠燈檢測等,感知系統(tǒng)中仍然要保留圖像域的感知模型;這也正是馬斯克展示特斯拉的v12版時,紅綠燈檢測出現(xiàn)明顯的錯誤,Occupancy Network忽略了部分2D相關任務。

特斯拉的OccupancyNetwork在找尋自由空間方面優(yōu)勢明顯,策略是避障而非減速剎車,但也有缺點,大量的無意義的靜態(tài)目標如路兩邊的建筑物浪費了不少運算資源,按照特斯拉2022 AI Day上的資料,特斯拉的幀率大概是12fps,通常智能駕駛是30fps以上,顯然是運算資源不足導致的。

地平線追求一個高性能、高效率的長時序純稀疏BEV感知算法,既能提高效率也不降低性能?;A還是首個稀疏的BEV感知模型,即DETR3D。《DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries》,作者來自五湖四海,包括麻省理工學院(MIT)、清華大學、卡梅隆大學、理想汽車(不過作者留的郵箱是斯坦福大學,應該還是學生)豐田北美研究院和斯坦福大學。

DETR3D是第一個端到端的目標檢測模型,不需要眾多手工設計組件,如anchor、固定規(guī)則的標簽分配策略、NMS后處理等),也是首先將tranformer引入目標檢測的。DETR3D模型包含3個關鍵組件。第一,遵循 2D 視覺中的常見做法,使用共享的 ResNet主干從相機圖像中提取特征,視需要使用特征金字塔FPN加強這些特征。第二,一個以幾何感知方式將計算的2D特征和3D包絡框預測集合進行連接的檢測頭,檢測頭的每一層都從一組稀疏的目標查詢開始,這些查詢是從數(shù)據(jù)中學習的。每個目標查詢編碼一個3D位置,該位置投影到相機平面并通過雙線性插值用于收集圖像特征。DERT類似,然后我們使用多頭注意力通過合并目標交互來優(yōu)化目標查詢。這一層會重復多次,在特征采樣和目標查詢優(yōu)化之間交替。最后,我們使用set-to-set損失來訓練網絡。

與Transformer那種全局(global)&密集(dense)的注意力機制相比,DETR3D提出了新思路:每個參考點僅關注鄰域的一組采樣點,這些采樣點的位置并非固定,而是可學習的(與可變形卷積一樣),從而實現(xiàn)了一種局部(local)&稀疏(sparse)的高效注意力機制。Transformer在計算注意力權重時,伴隨著高計算量與空間復雜度。特別是在編碼器部分,與特征像素點的數(shù)量成平方級關系,因此難以處理高分辨率的特征(這點也是DETR檢測小目標效果差的原因),說白了就是計算量太大,高分辨率攝像頭沒法用。DETR的第一波改進就是Deformable DETR。它提出可變形注意力模塊,相比于Transformer那種方式,在這里,每個特征像素不必與所有特征像素交互計算,只需要與部分基于采樣獲得的其它像素交互即可,這就大大加速了模型收斂,同時也降低了計算復雜度與所需的空間資源。另外,該模塊能夠很方便地應用到多尺度特征上,連FPN都不需要。

地平線做了二次改進,就是Sparse 4D。

Sparse4D概覽

圖片來源:地平線

Sparse4D提出instance特征,即實例特征,應該是車的實例,然后重新定義anchor盒尺寸。

圖片來源:地平線

Sparse4D也采用了Encoder-Decoder 結構,其中Encoder包括image backbone和neck,用于對多視角圖像進行特征提取,得到多視角多尺度特征圖。同時,cache 多張歷史幀的圖像特征用于在decoder 中提取時序特征;Decoder為多層級聯(lián)形式,輸入時序多尺度圖像特征圖和初始化instance,輸出精細化后的instance,每層decoder包含self-attention、deformable aggregation和refine module三個主要部分。

學習2D檢測領域DETR改進的經驗,重新引入了Anchor的使用,并將待感知的目標定義為instance,每個instance主要由兩個部分構成:目標的高維特征,在decoder 中不斷由來自于圖像特征的采樣特征所更新;目標結構化的狀態(tài)信息,比如3D檢測中的目標3D框(x, y, z, w, l, h, yaw, vx, vy);通過kmeans 算法來對anchor 的中心點分布進行初始化;同時,在網絡中會基于一個MLP網絡來對anchor的結構化狀態(tài)進行高維空間映射得到 Anchor Embed 并與instance feature 相融合。

Anchor源自RPN,在深度學習時代,大名鼎鼎的RCNN和Fast RCNN依舊依賴滑窗來產生候選框,也就是Selective Search算法,該算法優(yōu)化了候選框的生成策略,但仍會產生大量的候選框,導致即使是Fast RCNN算法,在GPU上的速度也只有三、四幀每秒。直到Faster RCNN的出現(xiàn),提出了RPN網絡,使用RPN直接預測出候選框的位置。RPN網絡一個最重要的概念就是anchor,啟發(fā)了后面的SSD和YOLOv2等算法,雖然SSD算法稱之為default box,也有算法叫做prior box,其實都是同一個概念,他們都是anchor的別稱。anchor就是在圖像上預設好的不同大小,不同長寬比的參照框。(其實非常類似于上面的滑窗法所設置的窗口大?。?。

anchor有點定制的意味,首先你要知道你檢測的最重要的目標類型是什么,是車還是小貓,再根據(jù)這個確定anchor,大大提高計算效率,也提高準確度,而缺點就是可能出現(xiàn)漏檢。對智能駕駛來說,最重要的目標是車和行人,這個anchor很好確定,也可以讓網絡自己確定。

圖片來源:地平線

在Sparse4D的decoder 中,最重要的是Deformable 4D Aggreagation模塊。這個模塊主要負責instance與時序圖像特征之間的交互,如上圖所示,主要包括三個步驟:

4D關鍵點生成:首先,基于每個instance的3D anchor信息,生成一系列3D關鍵點,分為固定關鍵點和可學習關鍵點。將固定關鍵點設置為anchor box的各面中心點及其立體中心點,可學習關鍵點坐標通過instance feature接一層全連接網絡得到。在Sparse4D 中,采用了7個固定關鍵點 + 6個可學習關鍵點的配置。然后結合instance自身的速度信息以及自車的速度信息,對這些3D關鍵點進行運動補償,獲得其在歷史時刻中的位置。結合當前幀和歷史幀的3D關鍵點,我們獲得了每個instance的4D關鍵點。

4D 特征采樣:在獲得每個instance在當前幀和歷史幀的3D關鍵點后,根據(jù)相機的內外參將其投影到對應的多視角多尺度特征圖上進行雙線性插值采樣。從而得到Multi-Keypoint,Multi-Timestamp, Multi-Scale, Multi-View的特征表示。

然后是層級融合,F(xiàn)use Multi-Scale/View:對于一個關鍵點在不同特征尺度和視角上的投影,采用了加權求和的方式,權重系數(shù)通過將instance feature和anchor embed輸入至全連接網絡中得到;Fuse Multi-Timestamp:對于時序特征,采用了簡單的recurrent策略(concat + linear)來融合;Fuse Multi-Keypoint:最后,采用求和的方式融合同一個instance不同keypoint的特征。

即便是已經稀疏化、輕量化,由于時間T的導入,依然導致計算量偏大,第一代Sparse 4D使用ResNet50做骨干網,輸入圖像尺寸704*256,使用英偉達RTX3090顯卡,RTX3090擁有10496個CUDA核心,328個Tensor張量核心,F(xiàn)P32算力是35.58TOPS,F(xiàn)P16張量算力是285TOPS,INT8是570TOPS,論FP32算力比A100還高,價格不到A100的1/5。

幀率偏低,消耗內存也太多,地平線提出第二代Sparse4D。

圖片來源:地平線

在Sparse4D-V2中,將decoder分為單幀層和時序層。單幀層以新初始化的instance作為輸入,輸出一部分高置信度的instance至時序層;時序層的instance除了來自于單幀層的輸出以外,還來自于歷史幀(上一幀)。將歷史幀的instance投影至當前幀,其中,instance feature保持不變,anchor box通過自車運動和目標速度投影至當前幀,anchor embed通過對投影后的anchor進行編碼得到。這樣避免消耗內存的多幀采樣,改為歷史幀重復利用,用遞歸recurrent的方式取代了多幀采樣。

最新的Sparse4D -V3也已經出現(xiàn),對骨干網和訓練策略都進行了升級,最終達到了純視覺第一名。

最后要說的是人人都說大模型,實際略大一點的模型無法在車端使用,存儲帶寬和算力最終變?yōu)槌杀鞠拗疲歉删W幾乎沒有例外都還是2015年微軟研究院的何愷明、張祥雨、任少卿、孫劍等人提出的ResNet,何愷明后來去了Facebook (Meta),最近又回MIT教書,基本上何凱明引領了計算機目標檢測視覺的發(fā)展潮流,真正的大神。

自動駕駛需要走的路還很長,感知的問題還未完全解決。不過欣慰的是,中國在感知方面是穩(wěn)居第一的,如果中國都無法完成自動駕駛,那么其他國家更不可能。

免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導、投資和決策意見。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
A3987SLPTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, 1.5A, NMOS, PDSO24, MO-153ADT, TSSOP-24

ECAD模型

下載ECAD模型
$5.27 查看
MMA8451QR1 1 NXP Semiconductors SPECIALTY ANALOG CIRCUIT, QCC16

ECAD模型

下載ECAD模型
$3.53 查看
LM629M-6/NOPB 1 Texas Instruments Precision Motion Controller 24-SOIC -40 to 85

ECAD模型

下載ECAD模型
$47.98 查看
地平線

地平線

地平線是邊緣人工智能芯片的全球領導者。得益于前瞻性的軟硬結合理念,地平線自主研發(fā)兼具極致效能與開放易用性的邊緣人工智能芯片及解決方案,可面向智能駕駛以及更廣泛的通用 AI 應用領域,提供包括高效能邊緣 AI 芯片、豐富算法IP、開放工具鏈等在內的全面賦能服務。目前,地平線是國內唯一一家實現(xiàn)車規(guī)級人工智能芯片量產前裝的企業(yè)。

地平線是邊緣人工智能芯片的全球領導者。得益于前瞻性的軟硬結合理念,地平線自主研發(fā)兼具極致效能與開放易用性的邊緣人工智能芯片及解決方案,可面向智能駕駛以及更廣泛的通用 AI 應用領域,提供包括高效能邊緣 AI 芯片、豐富算法IP、開放工具鏈等在內的全面賦能服務。目前,地平線是國內唯一一家實現(xiàn)車規(guī)級人工智能芯片量產前裝的企業(yè)。收起

查看更多

相關推薦

電子產業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網)領域的產業(yè)研究、專項調研、戰(zhàn)略規(guī)劃和投資咨詢服務。