P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

論文下載鏈接：https://arxiv.org/pdf/1911.11462.pdf

1 摘要
大多數最先進的行爲定位系統都是單獨處理每個動作proposal，而不是在學習過程中顯式地利用它們之間的關係。然而，proposal之間的關係實際上在行動定位中扮演着重要的角色，因爲一個有意義的行動總是由一個視頻中的多個proposal組成。在本文中，我們提出利用圖卷積網絡(GCNs)來挖掘proposal - proposal關係。

首先，我們構造一個action proposal圖，其中每個proposal表示爲一個節點，兩個proposal之間的關係表示爲一條邊。這裏，我們使用兩種類型的關係，一種用於捕獲每個proposal的上下文信息，另一種用於描述不同action之間的關聯。我們在圖上應用GCN，以對不同proposal之間的關係進行建模，學習了動作分類和定位的強大表示。實驗結果表明，我們的方法在THUMOS14上顯著優於最先進的方法(49.1% versus42.8%)。此外，ActivityNet上的增強實驗也驗證了action proposal關係建模的有效性。

2 背景

對於一個視頻，會產生很多個Proposal，如圖中的P1——P4。

一方面，P1,P2,P3有一定重疊，描述同一動作實例的不同部分（開始階段、動作中間、結束階段）。傳統的方法直接用P1的特徵來預測，導致結果精度不高。如果把P2,P3的特徵也考慮進去，則可以獲得P1附近的文本信息，對於時序邊界的迴歸是大有裨益的。

另一方面，P4描述的背景信息（如運動場），但它的內容對於P1的正確分類是很有幫助的，即使P4和p1在時序上是分開的。

3 方案對比（self-attention VS GCN）

目的都是獲取Proposal-proposal之間的交互信息，
self-attention是通過自動學習的聚合權重把其他所有proposal的信息都聚合到一個proposal上，因爲proposal數量通常很多，使得計算量巨大，成本太高。

而 GCN只是聚合相鄰node的信息，使得計算量大幅度降低。

4 整體方案

兩條支路:
支路1：對原始視頻提取相應的proposal，處理後獲取特徵送入GCN網絡，輸出動作的分類；

支路2：對原始視頻提取相應的proposal，並前後延伸包含更多的上下文語境信息，處理後獲取特徵送入GCN網絡，輸出動作的邊界信息；

5 方法原理

5.1 數據預處理：
1）視頻處理
同BSN、BMN（年前我介紹的百度的兩篇文章，之後的DBG（騰訊的AAAI2020）又是在BMN上繼續改進的），將視頻有重疊的隔64幀作爲一個視頻片段，然後用I3D方法提取RGB+Flow雙流特徵，分別爲100*1024維，100是時序長度；

2）proposals提取
通過TAG（Temporal action detection with structured segment networks.2017CVPR）從video中提取出若干proposals

每一個video生成的proposals爲：

5.2 圖的構建：

每個proposal作爲圖的一個節點， proposal-proposal之間的關係用圖的edge來表示。因此，edges的構建對於proposal-proposal之間的關係特徵十分重要。方案一是把所有的proposal彼此連接，但是會巨大的計算量，對於動作定位，把一些不應該連接的proposal連接起來，也會產生冗餘的、有干擾的信息，影響最後的準確率。
方案二（論文方法）是通過proposal之間的相關性、遠近來決定彼此是否連接。並定義了兩種edge：Contextual Edges和Surrounding Edges。

Contextual Edges：

即像之前組會講過的（Re-thinking the faster r-cnn architecture for temporal action localization.2018 CVPR）類似的融入上下文語境信息，給後期的定位提供更多的信息，從而獲取更準確的動作邊界。

Surrounding Edges：

r(pi,pj)=0，也就是proposal之間沒有交集，這個時候通過選擇中心座標差（即距離）小的proposal彼此連接，這些附近的proposal往往包含背景信息（如籃球場等），這對於動作的分類十分有用。

5.3 Graph Convolution for Action Localization
GCN和CNN、RNN一樣，都是用來提取特徵的。

目前GCN通常爲2層，即K=2。
對比實驗中發現最後GCN輸出之後，級聯上最開始的輸入X（0）效果更好。其實這就類似於目標檢測中的ResNet思想。

支路1：動作分類

GCN輸出跟一個FC，然後用softmax分類，得到支路一的輸出，即動作分類。

支路2：動作定位

支路2的圖和支路1的圖一樣，但是輸入的特徵X不同。支路2的X前後各延伸1/2的Proposal長度從而包含更多的上下文語境信息。

GCN輸出之後，跟兩個FC，一個用來輸出動作的開始和結束邊界，另一個用來輸出新的“分類得分”（completeness label ci，表明該proposal是否完整）,因爲有研究表明不完整的proposal雖然和ground truth的tIOU比較小，但是可能有比較高的分類得分，所以單單使用支路1的分類得分來排名選取proposal是不妥的。實驗中將兩者相乘。

5.4 訓練中的採樣策略

用於所有proposals計算量過大，故採用SAGE method（Inductive representation learning on large graphs. 2017）進行隨機採樣。

Ns即採樣個數，論文中爲4。只在training中採樣，test中不採樣。

6 整體算法

7 實驗效果
THUMOS14 mAP=49.1% when tIoU=0.5，當前最好。ActivityNet效果有競爭力。

8 結論

1)第一個將proposal-proposal relations運用到temporal action localization中
2) 構建圖網絡來傳遞proposal之間的信息

圖網絡對於處理圖片之外的非規則的數據，如社交關係、知識圖譜等具有CNN、RNN等特徵提取器明顯不具備的優勢，發展空間很大，這兩年在各領域得到了大量研究和應用。這篇運用到Action detection上也取得了比較好的效果，是我後期工作的思路之一。
也歡迎感興趣的朋友關注公。衆號StrongerTang更多交流討論，相互學習！

P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

Python strip()與split()方法

基於深度學習的目標檢測發展綜述（持續更新。。。）

人工智能發展及其倫理問題思考

windows下dlib庫簡介、安裝問題解決及簡單小例子（python）

深度學習入門首推資料--吳恩達深度學習全程筆記分享

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結