Mask-guided Contrastive Attention Model for Person Re-Identification 論文學習

論文地址: 

http://openaccess.thecvf.com/content_cvpr_2018/papers/Song_Mask-Guided_Contrastive_Attention_CVPR_2018_paper.pdf

這篇CVPR2018的佳作引人注目之處莫過於通過mask 提取出人體圖像而去除背景在ReID過程中的影響。理論上講這纔是最接近人類進行物體識別時的步驟:我們不會把行人進行BBox,而是通過輪廓對人物進行辨識。

廢話不多說了,下面正式對這篇論文進行講解(翻譯)。

摘要:

人員重新識別(ReID)是計算機視覺中一項重要且具有挑戰性的任務。由於各種背景雜亂,觀點和身體姿勢的變化,它遠未解決。如何提取對背景雜亂不變的判別和魯棒特徵是核心問題。在本文中,我們首先介紹二進制分割掩模來構造合成的RGB-Mask對作爲輸入,然後我們設計一個掩模引導的對比注意模型(MGCAM)來學習與身體和背景區域分開的特徵。此外,我們提出了一種新穎的區域級三聯體損失,以限制從不同區域學習的特徵,即,從完整圖像和身體區域拉近特徵,而從背景推動特徵。我們可能是第一個成功將二元掩模引入人ReID任務的人,也是第一個提出區域級對比學習的人。我們在三個公共數據集上評估所提出的方法,包括MARS,Market-1501和CUHK03。大量實驗結果表明,該方法是有效的,並達到了最先進的結果。掩碼和代碼將根據要求發佈。

1.  Introduction:

二元體掩碼可以在兩個方面爲ReID做出貢獻。首先,掩模可以幫助消除像素級的背景雜波。這可以極大地提高ReID模型在各種背景條件下的魯棒性。其次,面具包含可被視爲重要步態特徵的體形信息。已經證明,身體面罩對於照明,布料顏色是堅固的,因此對於識別人來說是有用的[35]。

利用二元體掩模的最直接的方法是直接掩蓋圖像中的背景。對於二元掩模,掩模圖像僅包含預期比使用整個圖像表現更好的體區。然而,在我們的實驗中,我們發現與使用原始圖像的圖像相比,屏蔽圖像的性能甚至更差(更多細節參見第4.3節)。這個結果意味着以“硬”方式直接用二元掩模去除背景不是一個好的選擇,這可能會影響結構化信息和圖像的平滑度。此外,錯誤分割的面具可能包含大量背景或丟失一些重要的身體部位,這將極大地影響性能。在這種情況下,刪除特徵級別中的背景可能是更好的解決方案。

爲了解決這個問題,我們探索利用二元掩碼來減少特徵級別中的背景雜亂。我們提出了一種面罩引導的對比注意模型(MGCAM)來從身體和背景區域對比學習特徵。如圖1(b)所示,在特徵空間中,從身體區域和完整圖像學習的特徵應該是相似的,而從背景和完整圖像學習的特徵應該是不同的。爲此,提出的MGCAM首先在二元體掩模的指導下產生一對對比注意力圖。然後將對比注意力圖添加到CNN特徵中以分別生成身體感知和背景感知特徵。請注意,我們的區域級三重態損失應用於來自同一圖像的區域特徵,而不是來自不同圖像的特徵的其他三元組損失[12]。

爲了從二元體掩模中學習與體形相關的特徵,我們建議將其作爲附加輸入與原始RGB圖像一起構建4通道圖像。通過這種方式,CNN模型可以從RGB通道學習外觀特徵,並從掩模通道中學習體形特徵。所以這種方法以相對“軟”的方式工作。即使在最壞的情況下,即掩模完全錯誤,CNN模型仍然可以從RGB通道學習特徵。我們的實驗證明這種方法可以提高性能。

本文的貢獻可歸納如下:

•爲了減少帶有蒙版的人物圖像背景雜亂,我們設計了一個由二元蒙版引導的對比注意模型。它可以生成一對身體感知和背景感知的注意力圖,可用於生成身體和背景的特徵。

•我們進一步提出從完整圖像,身體和背景的特徵區域級三聯體損失。它可以強制模型學習的特徵對背景雜亂不變。

•我們探索將身體蒙版作爲附加輸入並伴隨RGB圖像來增強ReID特徵學習。二元掩模有兩個主要優點:1)它可以幫助減少背景雜亂,2)它包含身份相關的功能,如身體形狀信息。

2.Related Works

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章