FASTER Recurrent Networks for Efficient Video Classification論文筆記

通常可以從兩個方面減少視頻分類任務的時間,一是通過減少網絡結構計算量,二是通過減少推理時如何結合每個clip通過網絡得到預測;本文使用第二種方法

爲了減少推理時的計算量,根據本身一個常規的clip特徵提取網絡(會比較重量級,用於提取動作細節),再設計一個對應的輕量級的clip特徵提取網絡(用於提取背景變化),還有一個用來以推理時視頻裏的每個clip經過不同網絡後的特徵作爲輸入的RNN來對於視頻進行最終的分類預測結果輸出(用於學習不同網絡最終輸出特徵之間的時間結構);

與LRCN的比較:網絡結構上類似於CNN+RNN構成的LRCN,只不過現在的CNN用於提取clip特徵,LRCN的CNN提取的爲每個frame的特徵

在這裏插入圖片描述
視頻分類網絡研究:1.3D卷積變換 2.在3D卷積上做修飾(爲了學習全局信息) 3.多流模型(RGB,flow,etc.)

結合CNN產生的特徵的方法
FAST-GRU與GRU:GRU的hidden unit(activation or state)通常爲一維向量,FAST-GRU允許shape爲(l,h,w,c)的特徵爲hidden unit,從而能夠更好的對CNN的輸出進行建模(比GRU多包涵了時間空間信息);FAST-GRU將GRU中的權重與特徵相乘改成了對特徵進行1x1x1的卷積(允許feature gating,相當於多了個attention);FAST-GRU在read gate和update gate的計算中在concat之後多加了個1x1x1卷積用於減少參數,增加非線性(思想與bottleneck類似),再通過一個1x1x1卷積恢復到原來的channel,後面再跟一個RELU(1x1x1卷積也相當於允許更多的feature gating)
在這裏插入圖片描述
其他還包括上圖中的concat,LSTM,GRU,以及一些相關的變體

用於提取clip特徵的clip-level的網絡結構(expensive and lightweight)
在這裏插入圖片描述
採用bottleneck,R2D在conv1的temporal stride爲8,後面的卷積操作的temporal stride均爲1,相當於2D卷積

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章