加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

通過特征選擇和聚合實現(xiàn)實用的視頻目標(biāo)檢測

08/11 08:55
1372
閱讀需 5 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

論文 Practical Video Object Detection via Feature Selection and Aggregation 探討了視頻目標(biāo)檢測(VOD)的挑戰(zhàn),尤其是如何有效地跨幀聚合特征以提高檢測的準(zhǔn)確性和效率。

在3090 GPU設(shè)備上準(zhǔn)確性(AP50)和推理速度(FPS)的性能比較。

研究背景

視頻目標(biāo)檢測的復(fù)雜性:視頻中的對象可能在不同幀之間有顯著的外觀變化,并且某些幀可能會出現(xiàn)模糊、非剛性運(yùn)動或其他退化現(xiàn)象。這些因素使得視頻目標(biāo)檢測比靜態(tài)圖像檢測更加復(fù)雜。

現(xiàn)有方法的局限性:大多數(shù)現(xiàn)有的特征聚合方法主要針對兩階段檢測器,這些方法雖然在精度上表現(xiàn)良好,但由于其雙階段特性,計算成本較高。單階段檢測器在處理靜態(tài)圖像方面取得了進(jìn)展,但在視頻目標(biāo)檢測中的應(yīng)用尚未得到充分探索。

基礎(chǔ)檢測器YOLOX(第一行)與我們的方法(第二行)之間的比較。這些幀受到多種干擾的影響,如非剛性運(yùn)動、運(yùn)動模糊和復(fù)雜姿勢,使得基礎(chǔ)檢測器未能完成任務(wù)。而我們的方法能夠精確預(yù)測這些物體。

方法概述

我們框架的示意圖。

特征選擇和聚合策略:論文提出了一種簡單但有效的策略,通過特征選擇和聚合來提高檢測精度,同時保持計算效率。

特征選擇模塊(FSM):該模塊用于從密集預(yù)測圖中提取候選特征,拒絕低質(zhì)量的候選項,從而減少計算開銷。具體來說,使用TopK+NMS策略來確保稀疏的前景預(yù)測。

特征聚合模塊(FAM):通過特征相似性測量形成親和矩陣,以指導(dǎo)特征的聚合。為了改善常用余弦相似度的不足,采用了平均池化操作。這些操作在計算資源上成本有限,但在準(zhǔn)確性上有顯著提升。

用于分類和回歸特征的特征聚合過程。Sr 和 Sc 分別表示 IoU 和分類的評分矩陣。

實驗與結(jié)果

實驗設(shè)置:論文在ImageNet VID數(shù)據(jù)集上進(jìn)行了廣泛的實驗,驗證了所提方法的有效性。

性能提升:實驗結(jié)果顯示,該方法在單個3090 GPU上以超過30 FPS的速度達(dá)到了92.9%的AP50,顯著優(yōu)于其他現(xiàn)有方法。

魯棒性測試:在處理運(yùn)動模糊、罕見姿勢和遮擋等挑戰(zhàn)性場景中,所提方法表現(xiàn)出色,顯示出其魯棒性。通過視覺化對比,展示了在這些場景下模型的優(yōu)越性能。

YOLOV-SwinBase(第一行)、YOLOV++-SwinBase(第三行)和具有相同SwinBase主干的TransVOD-Lite(第二行)之間的視覺對比。三個例子分別遭遇了不同類型的退化:(a) 運(yùn)動模糊,(b) 罕見姿勢,(c) 遮擋。我們的方法在這些具有挑戰(zhàn)性的情況下展示了其魯棒性。

貢獻(xiàn)與創(chuàng)新

效率與精度的平衡:通過引入特征選擇和聚合模塊,論文在保持高效推理速度的同時,顯著提高了檢測精度。

通用性:所提方法的核心思想簡單且通用,適用于不同的基礎(chǔ)檢測器,如YOLOX、FCOS和PPYOLOE。

對比分析:論文還與其他現(xiàn)有VOD方法進(jìn)行了對比,指出大多數(shù)方法依賴于重型基礎(chǔ)檢測器,而本文的方法在效率和效果上均有優(yōu)勢。

相關(guān)信息

代碼:https://github.com/yuhengsss/yolov

論文:https://arxiv.org/abs/2407.19650v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA128A3U-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64
$6.98 查看
ATXMEGA128A1U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP100, TQFP-100
$73.57 查看
STM32F103RBT6 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$10.15 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜