Two-Stream Convolutional Networks for Action Recognition in Video

我們提出了一種有區分訓練的卷積網絡來識別視頻中的動作。挑戰是從視頻幀中獲取外觀和運動的互補的信息。我們的三個貢獻：第一，提出了時間和空間分離的兩路卷積網絡結構。第二，證明了在多幀密集光流上訓練，能夠實現很好的性能。第三，多任務學習，應用在兩個不同的動作分類數據集上，能夠增加訓練的數據量，提高性能。

視頻能夠被分爲時間和空間兩部分。在空間部分，每一幀的表現形式，攜帶有場景和目標等信息。在時間部分，在幀與幀之間存在運動信息，包含目標物體和相機的運動信息。每一流用一個深度卷積網絡來實現，每一流的softmax分數在最後進行融合。我們考慮了兩種融合的方法：求平均值和在一個疊放的L2正則化的softmax得分上訓練一個多類的線性SVM。

光流卷積網絡：我們模型的輸入是幾個相鄰幀的堆疊的光流位移。這些輸入能夠描述出視頻幀的運動信息。

光流堆疊：一個密集的光流能夠被看做是一系列連續幀的位移向量。水平和垂直兩部分分開。爲了表示一個序列幀的運動信息，我們堆疊L個連續幀的流通道來形成一個總數爲2L個輸入通道。

軌跡堆疊：另一個可供選擇的運動表示，受到基於軌跡描述子的啓發，取代光流，在連續幾幀相同的位置上採樣，根據光流，得到軌跡的運動信息。

雙向光流：

減去平均光流：

時間域卷積網絡結構與先前的表示的關係：在本文中，運動信息通過用光流位移來準確的表示。

多任務學習：因爲視頻訓練的數據集相對較小，容易產生過擬合，爲了避免這種情況的發生，我們合併多個數據集。

實現細節：卷積網絡的配置，所有的隱含層用ReLU激活函數；max pooling的大小爲3*3，步長爲2；時間網絡和空間網絡位移的不同就是，我們刪除了時間網絡第二層的正則化來減少內存消耗。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Two-Stream Convolutional Networks for Action Recognition in Video

Two-Stream Convolutional Networks for Action Recognition in Video

Projective Feature Learning for 3D Shapes with Multi-View Depth Images

Two-Stream Convolutional Networks for Action Recognition in Video

Visual Tracking with Fully Convolutional Networks

解決hash衝突的方法

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結