Two-Stream Convolutional Networks for Action Recognition in Video

Two-Stream Convolutional Networks for Action Recognition in Video

我們提出了一種有區分訓練的卷積網絡來識別視頻中的動作。挑戰是從視頻幀中獲取外觀和運動的互補的信息。我們的三個貢獻:第一,提出了時間和空間分離的兩路卷積網絡結構。第二,證明了在多幀密集光流上訓練,能夠實現很好的性能。第三,多任務學習,應用在兩個不同的動作分類數據集上,能夠增加訓練的數據量,提高性能。

視頻能夠被分爲時間和空間兩部分。在空間部分,每一幀的表現形式,攜帶有場景和目標等信息。在時間部分,在幀與幀之間存在運動信息,包含目標物體和相機的運動信息。每一流用一個深度卷積網絡來實現,每一流的softmax分數在最後進行融合。我們考慮了兩種融合的方法:求平均值和在一個疊放的L2正則化的softmax得分上訓練一個多類的線性SVM。

光流卷積網絡:我們模型的輸入是幾個相鄰幀的堆疊的光流位移。這些輸入能夠描述出視頻幀的運動信息。

光流堆疊:一個密集的光流能夠被看做是一系列連續幀的位移向量。水平和垂直兩部分分開。爲了表示一個序列幀的運動信息,我們堆疊L個連續幀的流通道來形成一個總數爲2L個輸入通道。

軌跡堆疊:另一個可供選擇的運動表示,受到基於軌跡描述子的啓發,取代光流,在連續幾幀相同的位置上採樣,根據光流,得到軌跡的運動信息。

雙向光流:

減去平均光流:

時間域卷積網絡結構與先前的表示的關係:在本文中,運動信息通過用光流位移來準確的表示。

多任務學習:因爲視頻訓練的數據集相對較小,容易產生過擬合,爲了避免這種情況的發生,我們合併多個數據集。

實現細節:卷積網絡的配置,所有的隱含層用ReLU激活函數;max pooling的大小爲3*3,步長爲2;時間網絡和空間網絡位移的不同就是,我們刪除了時間網絡第二層的正則化來減少內存消耗。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章