論文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探討了在時間動作檢測(Temporal Action Detection, TAD)中利用時間因果關(guān)系的重要性,并提出了一種新穎的混合因果塊(Hybrid Causal Block)來增強(qiáng)時間關(guān)系建模。
研究背景與動機(jī)
時間動作檢測是視頻理解中的一個重要任務(wù),旨在識別視頻中動作發(fā)生的時間段。現(xiàn)有的方法大多忽略了時間因果關(guān)系,通常對過去和未來的信息對稱處理。然而,在實(shí)際場景中,動作邊界通常受到因果事件的影響,利用時間因果關(guān)系可以提高動作檢測的準(zhǔn)確性。
(a) 標(biāo)準(zhǔn)的時間建模方法對過去和未來的上下文一視同仁,例如卷積、圖網(wǎng)絡(luò)和自注意力機(jī)制,忽略了動作邊界變化本質(zhì)上是因果事件這一事實(shí)。(b) 和 (c) 通過分別限制模型僅訪問過去或未來的上下文來緩解這個問題。
主要貢獻(xiàn)
強(qiáng)調(diào)時間因果關(guān)系的重要性:提出了一種混合因果塊,結(jié)合了因果自注意力(causal self-attention)和因果Mamba機(jī)制,以增強(qiáng)時間關(guān)系建模。
實(shí)現(xiàn)了最先進(jìn)的性能:在多個TAD數(shù)據(jù)集上取得了最先進(jìn)的性能,特別是在EPIC-Kitchens和Ego4D挑戰(zhàn)賽中排名第一。
方法論
論文提出了一種一階段檢測框架,包括特征提取和動作檢測兩個部分:
特征提取
視頻編碼器:使用預(yù)訓(xùn)練的動作識別模型作為視頻編碼器,提取語義豐富的視頻特征。
視頻分割:將未剪輯的視頻分割成多個短片段,并使用滑動窗口方法獨(dú)立提取每個片段的特征。每個視頻片段可能會與其他片段重疊,具體取決于滑動窗口的步長。
空間-時間平均池化:在視頻骨干網(wǎng)絡(luò)之后應(yīng)用空間-時間平均池化,以獲得每個片段的密集視頻特征。
動作檢測
檢測模型:基于ActionFormer方法,使用混合因果塊替代原有的Transformer塊,以增強(qiáng)檢測性能。
優(yōu)化超參數(shù):在Ego4D-MQ和EPIC-Kitchens數(shù)據(jù)集上,優(yōu)化了四個超參數(shù):特征金字塔層數(shù)、回歸損失權(quán)重、輸入通道丟棄概率和訓(xùn)練周期數(shù)。
時間因果建模
因果Mamba塊:專注于因果建模,僅考慮前面的tokens。與Transformer的全序列自注意力不同,因果Mamba塊在前向和后向掃描方向上捕捉時間上下文。
混合因果塊:結(jié)合了因果自注意力和因果Mamba機(jī)制,能夠更好地捕捉動作轉(zhuǎn)換的時間依賴性和因果關(guān)系。
混合因果塊。我們將多頭自注意力(MHSA)和Mamba塊(SSM)結(jié)合在一起,并將它們的可見時間上下文限制為僅過去或未來的tokens,旨在捕捉長距離的時間依賴性和因果關(guān)系。前向和后向的MHSA和SSM中的參數(shù)是共享的,以減少TAD中的過擬合問題。
實(shí)驗(yàn)與結(jié)果
數(shù)據(jù)集與指標(biāo)
數(shù)據(jù)集:在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四個數(shù)據(jù)集上進(jìn)行評估。ActivityNet-1.3和THUMOS14包含第三人稱未剪輯視頻,而EPIC-Kitchens和Ego4D-MQ包含第一人稱視頻。
評價指標(biāo):使用平均精度(mAP)在不同IoU閾值下的平均mAP作為評價指標(biāo)。
性能比較
消融研究:在Ego4D-MQ數(shù)據(jù)集上進(jìn)行消融研究,驗(yàn)證了混合因果塊的有效性。通過優(yōu)化檢測模型的超參數(shù),mAP從27.52%提高到29.45%。替換ActionFormer中的局部Transformer為因果注意力塊后,mAP進(jìn)一步提高到30.87%。最終,混合因果塊在驗(yàn)證集上取得了32.19%的mAP,在測試集上取得了31.92%的mAP。
特征組合:使用InternVideo2特征進(jìn)一步提高性能,在測試集上達(dá)到34.12%的mAP。最終,通過結(jié)合InternVideo1和InternVideo2特征,平均mAP達(dá)到34.99%,Recall@1x在tIoU=0.5時達(dá)到52.83%,在Ego4D Moment Query Challenge 2024中排名第一。
結(jié)論
論文提出的混合因果塊在TAD任務(wù)中表現(xiàn)出色,實(shí)驗(yàn)結(jié)果表明其在多個數(shù)據(jù)集上具有顯著的性能提升。未來的研究可以進(jìn)一步探索高效的端到端訓(xùn)練方法,以應(yīng)對大規(guī)模視頻數(shù)據(jù)的挑戰(zhàn)。
相關(guān)信息
代碼:https://github.com/sming256/OpenTAD
論文:https://arxiv.org/abs/2407.17792v2