[ICCV2019] Co-segmentation Inspired Attention Networks for Video-based Person Re-identification

原創

2020-06-21 04:41

這篇文章提出了一種Co-Segmentation Inspired Attention模塊，用於專注於視頻中的人像主體，忽略背景信息的干擾。本質上這是一篇將non-local模塊，或是temporal self-attention機制應用於video-reid的文章，但相較於其他應用non-local在video-reid的文章來說，它的分析較爲詳盡。

Motivation

Video Re-id需要專注於圖像主體，即人體及其揹包等關聯物，而忽略背景信息的干擾。達成這一目的目前有多種方法，人像姿態估計、分割。但這兩種方法代價過高，且會只捕捉人體部分，而忽略人體關聯物，如包等。

另一種方法是採用attention來關注畫面主體，但fram-wise的attention沒有充分利用豐富的時空信息，所以這個attention是次優的。
因此作者提出借鑑co-segmentation的思路，提取幀間共享attention。

Co-segmentation

Obeject co-segmentation 就是將不同圖片中的公共對象提取出來，根據這些公共對象相似的結構和特徵。

Co-segmentation activation module (COSAM)

Spatial Attention

如圖，最左邊是每一幀的特徵，對於某一幀的某個像素點，計算其與所有其他幀的所有像素點的相關性，然後相加得出該像素點的attention。該點的特徵在越多的位置出現，該點越有可能獲得高attenion。

NCC是一種關聯強度計算函數，其主要特點是進行了normalize：

Module

整個模塊的設計上，在進行像素關聯性計算前進行了降維，後面還跟了一個channel-attention。

這個模塊可以被插入在整個pipeline的feature extract階段的各個block之間。

Experiment

插在後面會有一個明顯的提升。

對各種time aggregation方法都有一個提升。

總體上能提一個點的樣子。

Discussion

這篇文章看完之後覺得就是non-local [1] 用在了video-reid上，相似的工作我看到的還有兩篇 [2, 3]。不過這篇文章確實對這個non-local機制（ temporal self-attention）爲什麼對video-reid起作用的原因分析的比較透徹。其他文章基本沿用了non-local的說法，認爲是擴大了感受野。擴大了感受野這個說法錯是沒錯…但太籠統了。

另一個問題是，這篇文章說的其實是co-segmentation inspired attention，而不是co-segmentation。因爲你如果按照co-segmentation去想的話，一段視頻裏面其實背景沒怎麼變化，直接算關聯度的話，這是不會使得background被忽略的。所以這其實是在幀間attention上施加了關聯度計算，所以那個“降維層”很關鍵，它產生的特徵不只是降維特徵，而是attention信息，沒有這一層我覺得這個moduel會掛。

最後，這種temporal self attention是給整個video裏經常出現的部分一個更強的attention，從而獲得性能的提升。那麼在有的任務中，某幾幀的作用特別強烈（比如視頻分類等，出現某一幀了就完成了分類），那麼這種機制應該是無效的甚至是有害的。（就我目前和師兄弟交流的情況來說，確實有聽聞non-local在video classification上失效的實踐。）

Reference

[1] Wang, X., & Girshick, R. (2018). Non-local Neural Networks. Conference on Computer Vision and Pattern Recognition (CVPR), 7794–7803.
[2] Li, J., Wang, J., Tian, Q., Gao, W., & Zhang, S. (2019). Global-Local Temporal Representations For Video Person Re-Identification. The IEEE International Conference on Computer Vision (ICCV).
[3] Liu, C., Wu, C., Wang, Y. F., & Chien, S. (2019). Spatially and Temporally Efficient Non-local Attention Network for Video-based Person Re-Identificatio. British Machine Vision Conference, 1–13.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[ICCV2019] Co-segmentation Inspired Attention Networks for Video-based Person Re-identification

Motivation

Co-segmentation

Co-segmentation activation module (COSAM)

Spatial Attention

Module

Experiment

Discussion

Reference

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

[ICCV2019] Co-segmentation Inspired Attention Networks for Video-based Person Re-identification

科研經驗與習慣——2019年末課題組總結

Denoise: from image to point cloud

Recommender System - Survey

Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結