Mask-guided Contrastive Attention Model for Person Re-Identification 論文學習

原創

HellooWooorld

2018-09-17 05:33

論文地址：

http://openaccess.thecvf.com/content_cvpr_2018/papers/Song_Mask-Guided_Contrastive_Attention_CVPR_2018_paper.pdf

這篇CVPR2018的佳作引人注目之處莫過於通過mask 提取出人體圖像而去除背景在ReID過程中的影響。理論上講這纔是最接近人類進行物體識別時的步驟：我們不會把行人進行BBox，而是通過輪廓對人物進行辨識。

廢話不多說了，下面正式對這篇論文進行講解（翻譯）。

摘要:

人員重新識別（ReID）是計算機視覺中一項重要且具有挑戰性的任務。由於各種背景雜亂，觀點和身體姿勢的變化，它遠未解決。如何提取對背景雜亂不變的判別和魯棒特徵是核心問題。在本文中，我們首先介紹二進制分割掩模來構造合成的RGB-Mask對作爲輸入，然後我們設計一個掩模引導的對比注意模型（MGCAM）來學習與身體和背景區域分開的特徵。此外，我們提出了一種新穎的區域級三聯體損失，以限制從不同區域學習的特徵，即，從完整圖像和身體區域拉近特徵，而從背景推動特徵。我們可能是第一個成功將二元掩模引入人ReID任務的人，也是第一個提出區域級對比學習的人。我們在三個公共數據集上評估所提出的方法，包括MARS，Market-1501和CUHK03。大量實驗結果表明，該方法是有效的，並達到了最先進的結果。掩碼和代碼將根據要求發佈。

1. Introduction：

二元體掩碼可以在兩個方面爲ReID做出貢獻。首先，掩模可以幫助消除像素級的背景雜波。這可以極大地提高ReID模型在各種背景條件下的魯棒性。其次，面具包含可被視爲重要步態特徵的體形信息。已經證明，身體面罩對於照明，布料顏色是堅固的，因此對於識別人來說是有用的[35]。

利用二元體掩模的最直接的方法是直接掩蓋圖像中的背景。對於二元掩模，掩模圖像僅包含預期比使用整個圖像表現更好的體區。然而，在我們的實驗中，我們發現與使用原始圖像的圖像相比，屏蔽圖像的性能甚至更差（更多細節參見第4.3節）。這個結果意味着以“硬”方式直接用二元掩模去除背景不是一個好的選擇，這可能會影響結構化信息和圖像的平滑度。此外，錯誤分割的面具可能包含大量背景或丟失一些重要的身體部位，這將極大地影響性能。在這種情況下，刪除特徵級別中的背景可能是更好的解決方案。

爲了解決這個問題，我們探索利用二元掩碼來減少特徵級別中的背景雜亂。我們提出了一種面罩引導的對比注意模型（MGCAM）來從身體和背景區域對比學習特徵。如圖1（b）所示，在特徵空間中，從身體區域和完整圖像學習的特徵應該是相似的，而從背景和完整圖像學習的特徵應該是不同的。爲此，提出的MGCAM首先在二元體掩模的指導下產生一對對比注意力圖。然後將對比注意力圖添加到CNN特徵中以分別生成身體感知和背景感知特徵。請注意，我們的區域級三重態損失應用於來自同一圖像的區域特徵，而不是來自不同圖像的特徵的其他三元組損失[12]。

爲了從二元體掩模中學習與體形相關的特徵，我們建議將其作爲附加輸入與原始RGB圖像一起構建4通道圖像。通過這種方式，CNN模型可以從RGB通道學習外觀特徵，並從掩模通道中學習體形特徵。所以這種方法以相對“軟”的方式工作。即使在最壞的情況下，即掩模完全錯誤，CNN模型仍然可以從RGB通道學習特徵。我們的實驗證明這種方法可以提高性能。

本文的貢獻可歸納如下：

•爲了減少帶有蒙版的人物圖像背景雜亂，我們設計了一個由二元蒙版引導的對比注意模型。它可以生成一對身體感知和背景感知的注意力圖，可用於生成身體和背景的特徵。

•我們進一步提出從完整圖像，身體和背景的特徵區域級三聯體損失。它可以強制模型學習的特徵對背景雜亂不變。

•我們探索將身體蒙版作爲附加輸入並伴隨RGB圖像來增強ReID特徵學習。二元掩模有兩個主要優點：1）它可以幫助減少背景雜亂，2）它包含身份相關的功能，如身體形狀信息。

2.Related Works

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Mask-guided Contrastive Attention Model for Person Re-Identification 論文學習

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

JVM——I'm coming

彩票理論

實際使用中的神經網絡壓縮

算法——動態規劃

算法——分治

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結