加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

LION: 用于點云中3D目標檢測的線性組RNN

08/07 10:30
2484
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一種名為LION(LInear grOup RNN)的基于窗口的3D目標檢測框架,用于點云中的精確3D目標檢測。

(a) 不同3D骨干網絡在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]數(shù)據(jù)集上的檢測性能比較。在這里,我們采用Mamba [22]作為LION的默認操作符。此外,我們還展示了用于實現(xiàn)3D骨干網絡中特征交互的DSVT (b) [57]和LION (c)的簡化示意圖。

主要貢獻

提出LION框架

    1. :LION是一種基于線性組RNN的窗口化3D骨干網絡,能夠實現(xiàn)長距離特征交互。與現(xiàn)有方法(如DSVT)不同,LION支持數(shù)千個體素特征在大組中相互作用,從而建立長距離關系。

LION的示意圖主要包括多個LION模塊,每個模塊配有體素生成以增強特征,并配有體素合并以沿高度維度對特征進行下采樣。(H, W, D)表示3D特征圖的形狀,其中H、W和D分別是3D特征圖在X軸、Y軸和Z軸上的長度、寬度和高度。N是LION模塊的數(shù)量。在LION中,我們首先將點云轉換為體素,并將這些體素劃分成一系列等大小的組。然后,我們將這些分組的特征輸入LION的3D骨干網絡,以增強它們的特征表示。最后,這些增強的特征被輸入到BEV(鳥瞰圖)骨干網和檢測頭中,以進行最終的3D檢測。

3D空間特征描述符:引入了一個簡單的3D空間特征描述符,并將其與線性組RNN集成,以彌補線性組RNN在捕捉3D局部空間信息方面的不足。該描述符包括3D子流形卷積、LayerNorm層和GELU激活函數(shù)。

新3D體素生成策略:提出了一種新的3D體素生成策略,以增強前景特征,從而在高度稀疏的點云中產生更具辨別力的特征表示。不同于以往的方法,該策略通過選擇3D骨干網絡中特征圖的高響應區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。

驗證LION的泛化能力:通過不同的線性組RNN機制(如Mamba、RWKV、RetNet)驗證了LION的泛化能力。

方法細節(jié)

(a) 顯示了LION模塊的結構,其中包括四個LION層、兩個體素合并操作、兩個體素擴展操作和兩個3D空間特征描述符。這里,1×、1/2×和1/4×分別表示3D特征圖的分辨率為(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是體素合并用于體素下采樣和體素擴展用于體素上采樣的過程。(c) 展示了LION層的結構。(d) 顯示了3D空間特征描述符的詳細信息。

線性組RNN:LION框架采用線性組RNN來處理窗口內的分組特征,以建立長距離關系。然而,線性組RNN需要順序特征作為輸入,將體素特征轉換為順序特征可能會導致空間信息的丟失(例如,兩個在3D空間中非常接近的特征在1D序列中可能非常遠)。為此,作者提出了一個3D空間特征描述符來裝飾線性組RNN操作,從而彌補其在3D局部空間建模中的局限性。

體素生成策略:為了增強高度稀疏點云中的特征表示,提出了一種基于線性組RNN的3D體素生成策略。不同于以往的方法,該策略通過選擇3D骨干網絡中特征圖的高響應區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。

體素生成的詳細過程。對于輸入的體素,我們首先選擇前景體素,并沿不同方向擴散它們。然后,我們將擴散體素的對應特征初始化為零,并利用后續(xù)LION模塊的自回歸能力生成擴散特征。請注意,為了簡化說明,這里沒有展示體素合并過程。

體素合并和擴展:為了使網絡獲得多尺度特征,LION采用了分層特征提取結構,通過體素合并和擴展操作進行特征下采樣和上采樣。具體來說,體素合并通過計算下采樣索引映射來合并體素,而體素擴展通過相應的反向索引映射來上采樣下采樣的體素。

實驗結果

Argoverse V2:在Argoverse V2驗證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達到了40.7 mAP、41.1 mAP和41.5 mAP,均超過了之前的SOTA方法SAFDNet。

ONCE:在ONCE驗證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達到了66.3 mAP、65.8 mAP和66.6 mAP,其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。

消融研究:通過消融研究,驗證了大組大小設計、3D空間特征描述符和體素生成策略的有效性。結合所有組件后,LION的性能比基線提高了3.5 mAPH/L2。

消融研究

3D空間特征描述符的優(yōu)越性:通過比較不同替代方法(如MLP和線性RNN),驗證了3D空間特征描述符在捕捉局部3D空間信息方面的優(yōu)越性。3D空間特征描述符使基線性能提升了1.7 mAPH/L2。

體素生成的有效性:通過比較不同的體素生成方法,驗證了基于線性組RNN的體素生成策略的有效性。基于線性組RNN的體素生成策略顯著優(yōu)于其他方法,性能提升了0.7 mAPH/L2。

結論

LION框架通過采用線性組RNN進行大組特征交互,結合3D空間特征描述符和體素生成策略,在稀疏點云中實現(xiàn)了更具辨別力的特征表示。實驗結果表明,LION在多個數(shù)據(jù)集上達到了SOTA性能。然而,盡管LION在長距離特征交互方面表現(xiàn)出色,但其運行速度仍需進一步提升,因為線性RNN在并行計算方面不如Transformer高效。

相關信息

代碼:https://github.com/happinesslz/LION

論文:https://arxiv.org/abs/2407.18232v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA256A3BU-MH 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64QFN

ECAD模型

下載ECAD模型
$5.86 查看
STM32F429VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FSMC, TFT

ECAD模型

下載ECAD模型
$34.08 查看
DSPIC33EP512MU814-E/PH 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144

ECAD模型

下載ECAD模型
$11.85 查看

相關推薦

電子產業(yè)圖譜