論文筆記8 --(ReID)Camera Style Adaptation for Person Re-identification

《Camera Style Adaptation for Person Re-identification》
論文https://arxiv.org/abs/1711.10295v1


Abstract

作爲一項跨相機檢索任務,由於攝像機的不同,person re-id會收到圖像風格變化的影響。在以往的方法中,網絡去潛在的學習不受相機風格影響的特徵,而本文提出一個camera style (CamStyle) adaptation方法來解決這個問題。CamStyle可以作爲一種數據增強方法來平滑相機風格的差異。利用CycleGAN,標註的訓練圖像可以被轉換成每個相機的風格,並與原始訓練樣本一起形成增強訓練集。這種方法提高了數據多樣性以防擬合,但也會產生相當大的噪聲。爲了減輕噪聲的影響,作者提出了label smooth regularization (LSR)的方法來緩解。

1. Introduction

Person re-id[37]是一項跨攝像頭檢索任務。給定一個感興趣的查詢人員,它的目標是從從多個攝像頭收集的數據庫中檢索同一個人。在這個任務中,一個人的形象在外觀和背景上經常發生比較大的變化。通過不同的相機拍攝圖像是造成這種變化的主要原因(圖1)。通常,攝像頭在分辨率、環境光照等方面會彼此不同。
在這裏插入圖片描述
在解決相機變化的挑戰時,以前的論文選擇了一種隱含策略。即就是學習在不同相機下具有不變性的穩定特徵表示。傳統方法中的例子有:KISSME [13],XQDA [17],DNS [34]等。深度表示學習方法的例子有IDE [37],SVDNet [24],TripletNet [8]等。

與以往的方法相比,本文從相機風格適應的角度出發,提出了一種明確的策略。在基於深度學習的person re-id中,我們主要是受到大數據量需求的推動。爲了學習對相機變化具有魯棒性的能力,標註大型數據集是非常有用的,但卻很昂貴。不過,如果我們可以向訓練集中添加更多的樣本,以瞭解攝像頭之間的樣式差異,我們就能夠1)解決person re-id中的數據稀缺問題,2)學習不同攝像頭之間的不變特性。最好是這個過程不用再花費任何人工標註,從而保持低預算。

基於以上討論,我們提出了一種camera style (CamStyle) adaptation方法來規範person re-id的CNN訓練,在vanilla版本中,我們使用CycleGAN[41]學習每個相機對的image-image translation模型。利用學習好的CycleGAN模型,對於某個相機拍攝的訓練圖像,我們可以生成其他相機風格的新訓練樣本。通過這種方式,訓練集是原始訓練圖像和風格轉換圖像的組合。風格轉換的圖像可以直接從原始訓練圖像借用標註信息。在訓練中,我們按照[37]中的baseline model,使用新的訓練集進行訓練。Vanilla方法有助於減少過擬合併學到相機的不變性,但它也會給系統帶來噪聲(圖2)。在全相機系統(full-camera systems)下,噪聲問題蓋過了它所帶來的收益。爲了緩解這一問題,在改進版本中,進一步對風格轉換樣本應用LSR[25],以便在訓練中對其標籤進行培訓期間對其labels進行柔和分佈(softly distributed)。

本文提出的相機風格自適應方法CamStyle有三個優點:
首先,它可以被視爲一個數據增強方案,以平滑相機風格的差異。它減少了CNN過度擬合的影響。
第二,通過整合相機信息,它有助於學習具有相機不變性的行人特徵。
最後,它是無監督的,由CycleGAN保證,有很好的應用潛力。
綜上所述,本文有以下貢獻:

  • 用於re-id數據增強的普通相機風格轉換模型。在少數相機系統中,提升可達到17.1%;
  • 在re-id訓練中,對風格轉換後的樣本進一步應用LSR。在全相機系統中,觀察到一致的提升。

2. Related Work

Deep learning person re-identification.
很多深度學習方法[33,30,29,3,20]已經在person re-id中被提出。在[33]中,輸入圖像對分別被分成三個重疊的水平部分,並通過一個siamese CNN模型使用餘弦距離來學習它們的相似性。後來,Wu等人[30]通過使用較小的卷積核來增加網絡的深度,以獲得魯棒性特徵。此外,Varior等人[29]將long short-term memory (LSTM)模型合併到一個可以連續處理圖像部分的連體網絡中,以便記憶空間信息,以提高深層特徵的識別能力。

另一個有效的策略是分類模型,它充分利用了re-id labels[37、31、24、15、23]。Zheng等人[37]提出ID-discriminative embedding (IDE) 訓練re-id模型作爲圖像分類,其從ImageNet[14]預訓練模型進行微調。Wu等人[31]通過將手工製作的特徵合併到CNN特徵中,提出特徵融合網絡Feature Fusion Net (FFN)。最近,Sun等人[24]使用奇異向量分解迭代地優化FC特徵並生成正交權重。

當CNN模型與訓練樣本數量相比過於複雜時,可能會發生過擬合。針對這一問題,提出了幾種數據增強和正則化方法。在[19]中,Niall等人利用背景和線性變換生成各種樣本,提高網絡的泛化程度。最近,Zhong等人[39]隨機擦除輸入圖像中的矩形區域,這防止模型的過擬合併使模型對遮擋具有魯棒性。Zhu等人[40]從獨立的數據集中隨機選擇假陽性樣本(PseudoPositive samples)作爲額外的訓練樣本來訓練re-id CNN,以降低過擬合的風險。更多與此工作相關的,Zheng等人[38]使用DCGAN[21]生成未標記的樣本,併爲它們分配統一的標籤分佈以規範網絡。與[38]相比,本文工作中的風格轉換樣式樣本是從具有相對可靠標籤的真實數據生成的。

Generative Adversarial Networks.
生成對抗網絡Generative Adversarial Networks(GANs)[6]近年來取得了令人矚目的成功,特別是在圖像生成方面[21]。最近,GANs還被應用於圖像到圖像的轉換image-to-image translation[10,41,18],風格轉換style transfer[5,11]和跨域圖像生成cross domain image generation[2,26]。Isola等人[10]應用條件GANs來學習從輸入到輸出圖像的映射,以便圖像到圖像的轉換應用。[10]的主要缺點是它需要成對的相應圖像作爲訓練數據。爲了解決這一問題,Liu和Tuzel[18]提出了一種耦合生成對抗網絡(CoGAN),通過使用權重共享網絡來學習跨域的聯合分佈。最近,CycleGAN[41]在[10]中引入了基於“pix2pix”框架的循環一致性,以學習沒有成對樣本的兩個不同域之間的圖像轉換。風格轉換和跨域圖像生成也可以看作是圖像到圖像的轉換,其中輸入圖像的風格(或域)在保留原始圖像內容的同時被轉換到另一個風格(或域)。在[5]中,通過對圖像的內容和風格進行分離和重組,引入了一種風格轉換方法。Bousmalis等人[2]引入無監督的GAN框架,將圖像從源域轉換到目標域中的模擬圖像。相似性,在[26]中,Domain Transfer Network (DTN)是在保留原始身份的同時,通過合併多類GAN loss來生成unseen domain的圖像。與以前主要考慮生成樣本質量的方法不同,本工作的目的是使用風格轉換樣本來提高re-ID的性能。

3. The Proposed Method

在本節中,我們首先簡要回顧3.1節中的CycleGAN[41]。然後,我們將在第3.2節中使用CycleGAN描述camera-aware數據生成過程。LSR的baseline和訓練策略分別在第3.3節和第3.4節中描述。總體框架如圖3所示。
在這裏插入圖片描述
3.1. CycleGAN Review
給定兩個來自兩個不同域的數據集A和B,xiAx_{i}\in AyiBy_{i}\in B
在這裏插入圖片描述
CycleGAN的目標是學習映射函數,G:A→B使得G(A)的圖像分佈和B的圖像分佈是難以區分的。CycleGAN包含兩個映射函數G:A→BF:B→A,同樣,F:B→A使得F(B)與A的分佈類似。DAD_{A}DBD_{B}是對抗判別器。CycleGAN應用GAN框架來共同訓練生成和判別模型。整個CycleGAN損失函數爲:
在這裏插入圖片描述
其中,VGANV_{GAN}映射函數和判別器的損失函數,Vcyc(G,F)V_{cyc}(G,F)是循環一致性損失,使得F(G(x))約等於xG(F(y))約等於y,也就是說每個圖片經過循環映射能夠得到恢復。λVGANV_{GAN}VcycV_{cyc}之間重要性的懲罰項。更多關於CycleGAN的細節見[41]。

3.2. Camera-aware Image-Image Translation
本文使用CycleGAN生成新的訓練樣本:不同相機風格的圖片被認爲是不同的域domains。通過CycleGAN,本文對每對相機學習一個圖像到圖像的模型。爲了保持輸入輸出圖片顏色的一致性,在公式(1)中加入了identity mapping loss[41],使得生成器在使用目標域的真實圖片作爲輸入時,能夠近似於identity mapping。identity mapping loss可以表示爲:
在這裏插入圖片描述
具體的,對於訓練圖片,使用CycleGAN對每對相機生成camera-aware風格轉換模型。按照[41]中的訓練策略,所有圖片被resize到256×256。我們使用與CycleGAN相同的架構來實現camera-aware風格轉換網絡。包含9個殘差塊和4個卷積,判別器discriminator爲70×70PatchGANs[10]。

使用學習的CycleGAN模型,對於每個相機下的訓練圖片,我們生成L-1個新的訓練圖片,其風格和對應相機相似(如圖2所示),並將生成的圖像稱爲style-transferred imagefake image。通過這種方式,訓練集被增強爲原始圖像和風格轉換圖像的組合。由於每個風格轉換的圖像保留了原始圖像的內容,因此新樣本與原圖像是相同的標籤。

Discussions
如圖4所示,所提出的數據增強方法的工作機制主要包括:

  1. real imagesfake (style-transferred) images之間的相似數據分佈;
  2. 保留fake images的ID標籤。一方面,fake填補了real數據點之間的空白,並在特徵空間中略微擴展了類邊界。這保證了在嵌入學習期間,增強的數據集通常支持更好地描述類分佈。另一方面,支持使用監督學習supervised learning[37],這是一種不同於[38]的機制,它利用未標記的GAN圖像進行正則化。

3.3. Baseline Deep Re-ID Model
real imagesfake images作爲輸入,使用ID-discriminative embedding (IDE)[37]訓練模型。使用Softmax loss,IDE將re-ID訓練視爲圖像分類任務。網絡如圖3所示。所有輸入圖像resize爲256×128。使用ResNet-50[7]作爲主幹,並遵循[37]中的訓練策略對ImageNet預訓練模型進行微調。丟棄了最後的1000維分類層並添加了兩個全連接層。第一個FC層“FC-1024”輸出1024維,然後是bn[9]、relu和dropout[22]。添加“FC-1024”遵循[24]中的做法,從而提高了精度。第二個FC層的輸出是C維的,其中C是訓練集中的類數。

3.4. Training with CamStyle
本節討論了使用CamStyle的訓練策略。當我們同等看待real和fake時,方法叫vanilla version。另一方面,考慮fake帶來的噪聲問題,加入label smooth regularization (LSR)[25],叫作full version

Vanilla version
在vanilla版本中,新訓練集中(real+fake)所有樣本被同等看待,即每一個樣本僅屬於單個id。在訓練中,在每個mini-batch中隨機選取M個real imagesN個fake images。損失函數爲:
在這裏插入圖片描述
其中, LRL_{R}LFL_{F}表示交叉熵損失cross-entropy loss,其可表示爲:
在這裏插入圖片描述
其中,C是類的數量。p(c)是屬於label c的輸入的預測概率,p(c)由softmax歸一化得到,
在這裏插入圖片描述
q(c)表示gt分佈。因爲每個人在新的訓練集中只屬於一個id。所以 q(c) 可被定義爲:
在這裏插入圖片描述
因此交叉熵可以寫爲:
在這裏插入圖片描述
因爲real和fake數據在分佈上的相似性,在few cameras情況下,vanilla version能夠提升baseline IDE正確率。

Full version
style-transferred images能夠增加樣本量,但也引入了噪聲。在少數相機系統下,由於缺乏數據,所以vanilla version能夠緩解過擬合。但在更多的相機下,數據足夠多時,過擬合問題不再是主要問題了,風格轉換帶來的噪音問題開始出現。

轉換噪聲主要來源於:

  1. CycleGAN並不是一個完美的轉換模型,因此在圖片生成過程中會發生錯誤;
  2. 由於本身的遮擋和檢測錯誤,在real數據中存在噪音樣本,轉化這些噪音樣本可能產生更多的噪音樣本。

圖4是real和fake數據在二維空間上的深層特徵可視化的一些示例。大多數生成的樣本分佈在原始圖像周圍,當轉換錯誤發生時(圖4©、(d)),fake樣本將是一個噪聲樣本並且遠離真實分佈。當real image是噪聲樣本時(圖4(b)、(d)),它遠離具有相同標籤的圖像,因此生成的樣本也會產生噪聲。
在這裏插入圖片描述
爲了緩解這個問題,提出LSR[25]方法,對於生成了圖片的label,加入一個平滑因子 ε\varepsilon,最終label爲:
在這裏插入圖片描述
此時的交叉熵可以寫爲:
在這裏插入圖片描述
對於real images,不使用LSR,因爲它們的標籤本身能夠正確匹配。同時實驗也證明了full-camera系統下,在real images上添加LSR並不能提升表現(見4.4小節)。所以僅在style-transferred images上使用LSR,設置 ϵ=0.1\epsilon=0.1,loss爲:LF=LLSR(ϵ=0.1)L_{F}=L_{LSR}(\epsilon=0.1)

PS:其實就是加一個平滑因子ϵ\epsilon,使得生成圖像和原型圖像是相同ID的概率接近於1但又不等於1。

Discussions
最近,Zheng等人[38]建議使用label smoothing regularization for outliers (LSRO)通過DCGAN[21]生成未標記樣本。在[38]中,由於生成的圖像沒有標籤,因此將均勻的標籤分佈分配給生成的樣本,即LLSR(ϵ=1)L_{LSR}(\epsilon=1)。與LSRO相比,本文系統有兩個不同之處:

  1. 根據相機風格生成fake images。CycleGAN的使用確保了生成的圖像仍然是人的主要特徵(圖5提供了一些可視化比較)。
  2. 本文系統中的標籤更可靠。使用LSR來處理一小部分不可靠數據,而LSRO則用於沒有標籤可用的情況。

在這裏插入圖片描述

PS:圖1(b)可以看到CycleGAN轉化的結果,可以看到樣本的Camera Style被遷移過去了。原來綠衣服的人遷移過去變成藍色,但他們是同一個人,屬於同一個id,外觀不一樣是因爲相機所處的光線環境不一致。很顯然,這種bias對Re-ID影響是很大的,而通過CycleGAN可以減小這種bias。

4. Experiment

4.1. Datasets
數據使用的是Market-1501[36]和DukeMTMC-reID[38]。

4.2. Experiment Settings
Camera-aware style transfer model
根據第3.2小節,分別爲Market-1501DukeMTMC-reID訓練C62=15C^{2}_{6}=15C82=28C^{2}_{8}=28的CycleGAN模型。在訓練期間,將所有輸入圖像的大小resize爲256×256,並使用Adam優化器[12]從頭開始訓練模型,λ=10。設置batch size=1,Generator的學習率learning rate=0.0002,Discriminator在前30個epoch學習率爲learning rate=0.0001,其餘20個epoch的學習率線性降爲零。在camera-aware風格轉換步驟中,每個訓練圖像生成L−1(Market-1501:5,DukeMTMC-reID:7)個fake訓練圖像。

Baseline CNN model for re-ID
遵循[37]中的訓練策略來訓練baseline。將所有圖像resize爲256×128。在訓練過程中,對輸入圖像進行隨機裁剪和水平翻轉。dropout設爲p=0.5。使用ResNet-50[7]作爲主幹backbone,其中第二個全連接層分別具有751702個單元用於Market-1501和DukeMTMC-reID。batch size=128。對於resnet-50基礎層,學習率從0.01開始,對於兩個新添加的全連接層,學習率從0.1開始。學習率在40個epoch後除以10,總共訓練了50個epoch。使用SGD來訓練re-ID模型。在測試時,提取pool5層的輸出作爲圖像描述符(2048-dim),並使用Euclidean計算圖像之間的相似性。

Training CNN with CamStyle
training mini-batch中,隨機選擇樣本比例設置爲M:N=3:1,因爲fake images的數量比real images多,因此在每個epoch中,我們使用所有的real images 並隨機選取NM×1L1\frac{N}{M}×\frac{1}{L-1}比例的fake images。

4.3. Parameter Analysis
CamStyle的參數MN\frac{M}{N}對結果的影響如下圖:
在這裏插入圖片描述
當在每個mini-batch中使用比real(M:N <1)更多的fake時,rank-1略微提高了1%。當M:N> 1時,rank-1有超過2%的提升。當M:N=3:1時,實現最佳性能。

4.4. Variant Evaluation
Baseline evaluation
爲了充分展示CamStyle的有效性,本文的baseline系統分別由2、3、4、5、6號Market-1501相機和2、3、4、5、8號DukeMTMC-reID相機組成。例如,在一個有3個相機的系統中,訓練和測試集都有3個相機。在圖8中,隨着相機數量的增加,rank-1準確率增加。這是因爲:

  1. 有更多的訓練數據可用
  2. 當數據庫中存在更多ground truths時,更容易找到一個rank-1真實匹配。

在full-camera (6 for Market-1501 and 8 for DukeMTMC-reID)baseline系統中,在Market-1501上的rank-1爲85.6%,在DukeMTMC-reID上的rank-1爲72.3%。
在這裏插入圖片描述
Vanilla CamStyle improves the accuracy of few-camera systems
首先在圖8和表1中評估vanilla方法(無LSR)的有效性。有兩個觀察結果。

  • 首先,在有2個相機的系統中,Vanilla CamStyle比baseline CNN有顯著提升。在Market-1501的2個相機數據下,提升幅度達到了+17.1%(從43.2%提高到60.3%)。DukeMTMC-reID的2個相機數據下,rank-1從45.3%提高到54.8%。這表明,由於缺乏訓練數據,少量相機系統容易過擬合,且本文方法表現出很好的性能提升。
  • 其次,隨着系統中相機數量的增加,vanilla CamStyle的提升幅度越來越小。例如,在Market-1501上的6攝像頭系統中,rank-1的提高僅爲+0.7%。這表明:1)在整個系統中,過擬合問題變得不那麼嚴重;2)CycleGAN帶來的噪聲開始對系統精度產生負面影響。

LSR is effective for CamStyle
如前文所述,當在具有3個相機的系統中進行測試時,Vanilla CamStyle相比2個相機系統實現的提升更少。圖8和表1表明,在fake images上使用LSR loss實現了比交叉熵cross-entropy更高的性能。如表1所示,在Market-1501全相機系統下,使用風格轉換數據的交叉熵將rank-1提高到86.31%。在fake數據上用LSR替換交叉熵將rank-1提高到了88.12%。
特別地,圖8和表1顯示僅在real data上使用LSR對full-camera系統沒有太大幫助,甚至會降低性能。因此,具有LSR的CamStyle在baseline上的提升這一事實並不僅僅歸因於LSR,而是LSR與fake images之間的相互作用。通過這個實現,證明了在fake images上使用LSR的必要性。
在這裏插入圖片描述

The impact of using different cameras for training camera-aware style transfer models
表2表明,使用更多的相機來訓練camera-aware風格轉換模型,rank-1從85.66%提高到了88.12%。特別是,即使只使用第1個和第2個相機來訓練,本文方法也能獲得rank-1 +1.54%的提升。此外,使用5個相機訓練時,rank-1=87.85%,比使用6個低0.27%。這表明,即使使用一部分相機來訓練camera-aware風格轉換模型,本文方法也可以產生與所有相機大致相同的結果。
在這裏插入圖片描述

CamStyle is complementary to different data augmentation methods.
爲了進一步驗證CamStyle,將它與兩種數據增強方法,隨機翻轉+隨機裁剪(RF + RC)和隨機擦除(RE)[39]進行比較。RF+RC是CNN訓練中[14]的常用技術,用於提高圖像翻轉和目標轉換的魯棒性。RE旨在實現遮擋的不變性。
如表3所示,當不使用數據增強時,rank-1=84.15%。當僅使用RF+RC、RE、或CamStyle是,rank-1分別爲85.66%、86.83%和85.01%。此外,如果將CamStyle與RF+RC或RE結合使用,相比單獨使用,各種組合下都得到了提升。三種方法一起使用時,可以實現最佳性能。因此,雖然3種截然不同的數據增強方法都集中在CNN不變性的不同方面,但實驗結果表明,CamStyle與其它兩種方法完全互補。
在這裏插入圖片描述

4.5. Comparison with the state-of-the-art methods
表4、5中本文方法分別與Market-1501和DukeMTMC-reID上的最新方法進行了比較。首先,使用本文的baseline訓練策略,作者在兩個數據集上獲得了強大的baseline(IDE*)。具體,IDE在Market-1501和DukeMTMC-reID上的rank-1分別爲85.66%和72.31%。與已發佈的IDE實現[24, 38, 37]相比,IDE在Market-1501上是最佳的rank-1。

然後,當在IDE*上應用CamStyle時,在Market-1501上rank-1=88.12%,比PDF[23],TriNet[8]和DJL[16]更高,在DukeMTMC-reID上rank-1=75.27%。另一方面,mAP在Market-1501上比TriNet[8]略低0.42%,在DukeMTMC-reID上低於SVDNet[24]3.32%。

進一步將CamStyle與隨機擦除RE數據增強相結合[39](RF + RC已經在基線中實現),最終rank-1在Market-1501上爲89.49%,在DukeMTMC-reID上爲78.32%。
在這裏插入圖片描述
在這裏插入圖片描述

5. Conclusion

本文提出了CamStyle,一種用於深度person re-id的相機風格自適應方法camera style adaptation。使用CycleGAN爲每對相機學習camera-aware風格轉換模型,這些模型用於從原始圖像生成新的訓練圖像。real imagesstyle-transferred images構成了新的訓練集。此外,爲了減輕CycleGAN引起的噪聲增加,在生成的樣本上應用label smooth regularization (LSR)。 Market-1501和DukeMTMC-reID數據集上的實驗表明,本文方法可以有效地減少過擬合的影響,並且與LSR結合使用時,比baselines都有所提升。此外,本文方法還是對其它數據增強技術的補充。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章