FASTER Recurrent Networks for Efficient Video Classification論文筆記

原創

2020-06-16 02:48

通常可以從兩個方面減少視頻分類任務的時間，一是通過減少網絡結構計算量，二是通過減少推理時如何結合每個clip通過網絡得到預測；本文使用第二種方法

爲了減少推理時的計算量，根據本身一個常規的clip特徵提取網絡(會比較重量級，用於提取動作細節)，再設計一個對應的輕量級的clip特徵提取網絡(用於提取背景變化)，還有一個用來以推理時視頻裏的每個clip經過不同網絡後的特徵作爲輸入的RNN來對於視頻進行最終的分類預測結果輸出(用於學習不同網絡最終輸出特徵之間的時間結構)；

與LRCN的比較：網絡結構上類似於CNN+RNN構成的LRCN，只不過現在的CNN用於提取clip特徵，LRCN的CNN提取的爲每個frame的特徵

視頻分類網絡研究：1.3D卷積變換 2.在3D卷積上做修飾(爲了學習全局信息) 3.多流模型(RGB,flow,etc.)

結合CNN產生的特徵的方法：
FAST-GRU與GRU：GRU的hidden unit(activation or state)通常爲一維向量，FAST-GRU允許shape爲(l,h,w,c)的特徵爲hidden unit，從而能夠更好的對CNN的輸出進行建模(比GRU多包涵了時間空間信息)；FAST-GRU將GRU中的權重與特徵相乘改成了對特徵進行1x1x1的卷積(允許feature gating，相當於多了個attention)；FAST-GRU在read gate和update gate的計算中在concat之後多加了個1x1x1卷積用於減少參數，增加非線性(思想與bottleneck類似)，再通過一個1x1x1卷積恢復到原來的channel，後面再跟一個RELU(1x1x1卷積也相當於允許更多的feature gating)

其他還包括上圖中的concat,LSTM,GRU,以及一些相關的變體

用於提取clip特徵的clip-level的網絡結構(expensive and lightweight)

採用bottleneck，R2D在conv1的temporal stride爲8，後面的卷積操作的temporal stride均爲1，相當於2D卷積

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

FASTER Recurrent Networks for Efficient Video Classification論文筆記

GEMS_Ultrasound_MovieGroup_001(python下進行private tag data(private creator)數據提取)

Counting Out Time: Class Agnostic Video Repetition Counting in the Wild個人筆記

cnpy: c++中讀取npy文件數組

SlowFastNet(SlowFast) finetune(微調)

opencv編譯筆記(opencv 4.1.0 編譯失敗缺少opencv_world410d.lib)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結