[ICCV2019] Co-segmentation Inspired Attention Networks for Video-based Person Re-identification

這篇文章提出了一種Co-Segmentation Inspired Attention模塊,用於專注於視頻中的人像主體,忽略背景信息的干擾。本質上這是一篇將non-local模塊,或是temporal self-attention機制應用於video-reid的文章,但相較於其他應用non-local在video-reid的文章來說,它的分析較爲詳盡。

Motivation

Video Re-id需要專注於圖像主體,即人體及其揹包等關聯物,而忽略背景信息的干擾。達成這一目的目前有多種方法,人像姿態估計、分割。但這兩種方法代價過高,且會只捕捉人體部分,而忽略人體關聯物,如包等。
在這裏插入圖片描述
另一種方法是採用attention來關注畫面主體,但fram-wise的attention沒有充分利用豐富的時空信息,所以這個attention是次優的。
因此作者提出借鑑co-segmentation的思路,提取幀間共享attention。
在這裏插入圖片描述

Co-segmentation

在這裏插入圖片描述
Obeject co-segmentation 就是將不同圖片中的公共對象提取出來,根據這些公共對象相似的結構和特徵。

Co-segmentation activation module (COSAM)

Spatial Attention

在這裏插入圖片描述
如圖,最左邊是每一幀的特徵,對於某一幀的某個像素點,計算其與所有其他幀的所有像素點的相關性,然後相加得出該像素點的attention。該點的特徵在越多的位置出現,該點越有可能獲得高attenion。
在這裏插入圖片描述
NCC是一種關聯強度計算函數,其主要特點是進行了normalize:
在這裏插入圖片描述

Module

在這裏插入圖片描述
整個模塊的設計上,在進行像素關聯性計算前進行了降維,後面還跟了一個channel-attention。
在這裏插入圖片描述
這個模塊可以被插入在整個pipeline的feature extract階段的各個block之間。

Experiment

在這裏插入圖片描述
插在後面會有一個明顯的提升。

在這裏插入圖片描述
對各種time aggregation方法都有一個提升。

在這裏插入圖片描述
總體上能提一個點的樣子。

Discussion

這篇文章看完之後覺得就是non-local [1] 用在了video-reid上,相似的工作我看到的還有兩篇 [2, 3]。不過這篇文章確實對這個non-local機制( temporal self-attention)爲什麼對video-reid起作用的原因分析的比較透徹。其他文章基本沿用了non-local的說法,認爲是擴大了感受野。擴大了感受野這個說法錯是沒錯…但太籠統了。

另一個問題是,這篇文章說的其實是co-segmentation inspired attention,而不是co-segmentation。因爲你如果按照co-segmentation去想的話,一段視頻裏面其實背景沒怎麼變化,直接算關聯度的話,這是不會使得background被忽略的。所以這其實是在幀間attention上施加了關聯度計算,所以那個“降維層”很關鍵,它產生的特徵不只是降維特徵,而是attention信息,沒有這一層我覺得這個moduel會掛。

最後,這種temporal self attention是給整個video裏經常出現的部分一個更強的attention,從而獲得性能的提升。那麼在有的任務中,某幾幀的作用特別強烈(比如視頻分類等,出現某一幀了就完成了分類),那麼這種機制應該是無效的甚至是有害的。(就我目前和師兄弟交流的情況來說,確實有聽聞non-local在video classification上失效的實踐。)

Reference

[1] Wang, X., & Girshick, R. (2018). Non-local Neural Networks. Conference on Computer Vision and Pattern Recognition (CVPR), 7794–7803.
[2] Li, J., Wang, J., Tian, Q., Gao, W., & Zhang, S. (2019). Global-Local Temporal Representations For Video Person Re-Identification. The IEEE International Conference on Computer Vision (ICCV).
[3] Liu, C., Wu, C., Wang, Y. F., & Chien, S. (2019). Spatially and Temporally Efficient Non-local Attention Network for Video-based Person Re-Identificatio. British Machine Vision Conference, 1–13.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章