P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

論文下載鏈接:https://arxiv.org/pdf/1911.11462.pdf

1 摘要
大多數最先進的行爲定位系統都是單獨處理每個動作proposal,而不是在學習過程中顯式地利用它們之間的關係。然而,proposal之間的關係實際上在行動定位中扮演着重要的角色,因爲一個有意義的行動總是由一個視頻中的多個proposal組成。在本文中,我們提出利用圖卷積網絡(GCNs)來挖掘proposal - proposal關係

首先,我們構造一個action proposal圖,其中每個proposal表示爲一個節點,兩個proposal之間的關係表示爲一條邊。這裏,我們使用兩種類型的關係,一種用於捕獲每個proposal的上下文信息,另一種用於描述不同action之間的關聯。我們在圖上應用GCN,以對不同proposal之間的關係進行建模,學習了動作分類和定位的強大表示。實驗結果表明,我們的方法在THUMOS14上顯著優於最先進的方法(49.1% versus42.8%)。此外,ActivityNet上的增強實驗也驗證了action proposal關係建模的有效性。
在這裏插入圖片描述
2 背景

對於一個視頻,會產生很多個Proposal,如圖中的P1——P4。

一方面,P1,P2,P3有一定重疊,描述同一動作實例的不同部分(開始階段、動作中間、結束階段)。傳統的方法直接用P1的特徵來預測,導致結果精度不高。如果把P2,P3的特徵也考慮進去,則可以獲得P1附近的文本信息,對於時序邊界的迴歸是大有裨益的。

另一方面,P4描述的背景信息(如運動場),但它的內容對於P1的正確分類是很有幫助的,即使P4和p1在時序上是分開的。

3 方案對比(self-attention VS GCN)

目的都是獲取Proposal-proposal之間的交互信息,
self-attention是通過自動學習的聚合權重把其他所有proposal的信息都聚合到一個proposal上,因爲proposal數量通常很多,使得計算量巨大,成本太高。

而 GCN只是聚合相鄰node的信息,使得計算量大幅度降低。

4 整體方案
在這裏插入圖片描述
兩條支路:
支路1:對原始視頻提取相應的proposal,處理後獲取特徵送入GCN網絡,輸出動作的分類;

支路2:對原始視頻提取相應的proposal,並前後延伸包含更多的上下文語境信息,處理後獲取特徵送入GCN網絡,輸出動作的邊界信息;

5 方法原理

5.1 數據預處理:
1)視頻處理
同BSN、BMN(年前我介紹的百度的兩篇文章,之後的DBG(騰訊的AAAI2020)又是在BMN上繼續改進的),將視頻有重疊的隔64幀作爲一個視頻片段,然後用I3D方法提取RGB+Flow雙流特徵,分別爲100*1024維,100是時序長度;

2)proposals提取
通過TAG(Temporal action detection with structured segment networks.2017CVPR)從video中提取出若干proposals
在這裏插入圖片描述
每一個video生成的proposals爲:
在這裏插入圖片描述
在這裏插入圖片描述
5.2 圖的構建:
在這裏插入圖片描述
每個proposal作爲圖的一個節點, proposal-proposal之間的關係用圖的edge來表示。因此,edges的構建對於proposal-proposal之間的關係特徵十分重要。方案一是把所有的proposal彼此連接,但是會巨大的計算量,對於動作定位,把一些不應該連接的proposal連接起來,也會產生冗餘的、有干擾的信息,影響最後的準確率。
方案二(論文方法)是通過proposal之間的相關性、遠近來決定彼此是否連接。並定義了兩種edge:Contextual Edges和Surrounding Edges

Contextual Edges:
在這裏插入圖片描述
即像之前組會講過的(Re-thinking the faster r-cnn architecture for temporal action localization.2018 CVPR)類似的融入上下文語境信息,給後期的定位提供更多的信息,從而獲取更準確的動作邊界。

Surrounding Edges:
在這裏插入圖片描述
r(pi,pj)=0,也就是proposal之間沒有交集,這個時候通過選擇中心座標差(即距離)小的proposal彼此連接,這些附近的proposal往往包含背景信息(如籃球場等),這對於動作的分類十分有用。

5.3 Graph Convolution for Action Localization
GCN和CNN、RNN一樣,都是用來提取特徵的。
在這裏插入圖片描述
目前GCN通常爲2層,即K=2。
對比實驗中發現最後GCN輸出之後,級聯上最開始的輸入X(0)效果更好。其實這就類似於目標檢測中的ResNet思想。

在這裏插入圖片描述
支路1:動作分類
在這裏插入圖片描述
GCN輸出跟一個FC,然後用softmax分類,得到支路一的輸出,即動作分類。

支路2:動作定位
在這裏插入圖片描述
在這裏插入圖片描述
支路2的圖和支路1的圖一樣,但是輸入的特徵X不同。支路2的X前後各延伸1/2的Proposal長度從而包含更多的上下文語境信息。

GCN輸出之後,跟兩個FC,一個用來輸出動作的開始和結束邊界,另一個用來輸出新的“分類得分”(completeness label ci,表明該proposal是否完整),因爲有研究表明不完整的proposal雖然和ground truth的tIOU比較小,但是可能有比較高的分類得分,所以單單使用支路1的分類得分來排名選取proposal是不妥的。實驗中將兩者相乘。

5.4 訓練中的採樣策略
在這裏插入圖片描述
用於所有proposals計算量過大,故採用SAGE method(Inductive representation learning on large graphs. 2017)進行隨機採樣。
在這裏插入圖片描述
Ns即採樣個數,論文中爲4。只在training中採樣,test中不採樣。

6 整體算法
在這裏插入圖片描述
7 實驗效果
THUMOS14 mAP=49.1% when tIoU=0.5,當前最好。ActivityNet效果有競爭力。
在這裏插入圖片描述
在這裏插入圖片描述
8 結論

1)第一個將proposal-proposal relations運用到temporal action localization中
2) 構建圖網絡來傳遞proposal之間的信息

圖網絡對於處理圖片之外的非規則的數據,如社交關係、知識圖譜等具有CNN、RNN等特徵提取器明顯不具備的優勢,發展空間很大,這兩年在各領域得到了大量研究和應用。這篇運用到Action detection上也取得了比較好的效果,是我後期工作的思路之一。
也歡迎感興趣的朋友關注公。衆號StrongerTang更多交流討論,相互學習!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章