百度 PaddlePaddle開源視頻分類模型Attention Cluster，曾奪挑戰賽冠軍

Attention Cluster 模型

視頻分類問題在視頻標籤、監控、自動駕駛等領域有着廣泛的應用，但它同時也是計算機視覺領域面臨的一項重要挑戰之一。

目前的視頻分類問題大多是基於 CNN 或者 RNN 網絡實現的。衆所周知，CNN 在圖像領域已經發揮了重大作用。它具有很好的特徵提取能力，通過卷積層和池化層，可以在圖像的不同區域提取特徵。RNN 則在獲取時間相關的特徵方面有很強的能力。

Attention Cluster 在設計上僅利用了 CNN 模型，而沒有使用 RNN，主要是基於視頻的以下幾個特點考慮：

圖 1 視頻幀的分析

首先，一段視頻的連續幀常常有一定的相似性。在圖 1（上）可以看到，除了擊球的動作以外，不同幀幾乎是一樣的。因此，對於分類，可能從整體上關注這些相似的特徵就足夠了，而沒有必要去特意觀察它們隨着時間的細節變化。

其次，視頻幀中的局部特徵有時就足夠表達出視頻的類別。比如圖 1（中），通過一些局部特徵，如牙刷、水池，就能夠分辨出『刷牙』這個動作。因此，對於分類問題，關鍵在於找到幀中的關鍵的局部特徵，而非去找時間上的線索。

最後，在一些視頻的分類中，幀的時間順序對於分類不一定是重要的。比如圖 1（下），可以看到，雖然幀順序被打亂，依然能夠看出這屬於『撐杆跳』這個類別。

基於以上考慮，該模型沒有考慮時間相關的線索，而是使用了 Attention 機制。它有以下幾點好處：

1. Attention 的輸出本質上是加權平均，這可以避免一些重複特徵造成的冗餘。

2. 對於一些局部的關鍵特徵，Attention 能夠賦予其更高的權重。這樣就能夠通過這些關鍵的特徵，提高分類能力。

3. Attention 的輸入是任意大小的無序集合。無序這點滿足我們上面的觀察，而任意大小的輸入又能夠提高模型的泛化能力。

當然，一些視頻的局部特徵還有一個特點，那就是它可能會由多個部分組成。比如圖 1（下）的『撐杆跳』，跳、跑和着陸同時對這個分類起到作用。因此，如果只用單一的 Attention 單元，只能獲取視頻的單一關鍵信息。而如果使用多個 Attention 單元，就能夠提取更多的有用信息。於是，Attention Cluster 就應運而生了！在實現過程中，百度計算機視覺團隊還發現，將不同的 Attention 單元進行一次簡單有效的『位移操作』（shifting operation），可以增加不同單元的多樣性，從而提高準確率。

接下來我們看一下整個 Attention Cluster 的結構。

整個模型可以分爲三個部分：

1. 局部特徵提取。通過 CNN 模型抽取視頻的特徵。提取後的特徵用 X 表示，如公式（1）所示：

（1）。X 的維度爲 L，代表 L 個不同的特徵。

2. 局部特徵集成。基於 Attention 來獲取全局特徵。Attention 的輸出本質上相當於做了加權平均。如公式（2）所示，v 是一個 Attention 單元輸出的全局特徵，a 是權重向量，由兩層全連接層組成，如公式（3）所示。實際實現中，v 的產生使用了 Shifting operation，如公式（4）所示，其中α和β是可學習的標量。它通過對每一個 Attention 單元的輸出添加一個獨立可學習的線性變換處理後進行 L2-normalization，使得各 Attention 單元傾向於學習特徵的不同成分，從而讓 Attention Cluster 能更好地學習不同分佈的數據，提高整個網絡的學習表徵能力。由於採用了 Attention clusters，這裏會將各個 Attention 單元的輸出組合起來，得到多個全局特徵 g，如公式（5）所示。N 代表的是 clusters 的數量。

3. 全局特徵分類。將多個全局特徵拼接以後，再通過常規的全連接層和 Softmax 或 Sigmoid 進行最後的單標籤或多標籤分類。

用 PaddlePaddle 訓練 Attention Cluster

PaddlePaddle 開源的 Attention Cluster 模型，使用了 2nd-Youtube-8M 數據集。該數據集已經使用了在 ImageNet 訓練集上 InceptionV3 模型對特徵進行了抽取。

如果運行該模型的樣例代碼，要求使用 PaddlePaddle Fluid V1.2.0 或以上的版本。

數據準備：首先請使用 Youtube-8M 官方提供的鏈接下載訓練集和測試集，或者使用官方腳本下載。數據下載完成後，將會得到 3844 個訓練數據文件和 3844 個驗證數據文件（TFRecord 格式）。爲了適用於 PaddlePaddle 訓練，需要將下載好的 TFRecord 文件格式轉成了 pickle 格式，轉換腳本請使用 PaddlePaddle 提供的腳本 dataset/youtube8m/tf2pkl.py。

訓練集：http://us.data.yt8m.org/2/frame/train/index.html

測試集：http://us.data.yt8m.org/2/frame/validate/index.html

官方腳本：https://research.google.com/youtube8m/download.html

模型訓練：數據準備完畢後，通過以下方式啓動訓練（方法 1)，同時我們也提供快速啓動腳本 (方法 2)

# 方法 1

# 方法 2

用戶也可下載 Paddle Github 上已發佈模型通過--resume 指定權重存放路徑進行 finetune 等開發。

數據預處理說明：模型讀取 Youtube-8M 數據集中已抽取好的 rgb 和 audio 數據，對於每個視頻的數據，均勻採樣 100 幀，該值由配置文件中的 seg_num 參數指定。

模型設置：模型主要可配置參數爲 cluster_nums 和 seg_num 參數。其中 cluster_nums 是 attention 單元的數量。當配置 cluster_nums 爲 32, seg_num 爲 100 時，在 Nvidia Tesla P40 上單卡可跑 batch_size=256。

訓練策略：

採用 Adam 優化器，初始 learning_rate=0.001

訓練過程中不使用權重衰減

參數主要使用 MSRA 初始化

模型評估：可通過以下方式（方法 1）進行模型評估，同樣我們也提供了快速啓動的腳本（方法 2）:

# 方法 1

# 方法 2

使用 scripts/test/test_attention_cluster.sh 進行評估時，需要修改腳本中的--weights 參數指定需要評估的權重。

若未指定--weights 參數，腳本會下載已發佈模型進行評估

模型推斷：可通過如下命令進行模型推斷：

模型推斷結果存儲於 AttentionCluster_infer_result 中，通過 pickle 格式存儲。

若未指定--weights 參數，腳本會下載已發佈模型 model 進行推斷

模型精度：當模型取如下參數時，在 Youtube-8M 數據集上的指標爲：

參數取值：

評估精度：

百度 PaddlePaddle開源視頻分類模型Attention Cluster，曾奪挑戰賽冠軍

985 碩士程序員，空窗 4 個月沒有 Offer！

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

營銷系統黑名單優化：位圖的應用解析

解密遊戲神作

導入地址表鉤取技術解析

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

mmsql 臨時表和主表 merge into 語法

簡單搜索--Paddle Mobile的技術實現和業務落地

首場百度大腦開放日來襲 | 全新開放24項AI技術

AI Studio教育版評測：AI真的能夠進入校園嗎？

百度獻禮高校開學季：AI Studio教育版上線！

百度 PaddlePaddle開源視頻分類模型Attention Cluster，曾奪挑戰賽冠軍

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結