【人臉屬性分類】Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification(FAC)

論文鏈接:https://arxiv.org/abs/2002.03683

動機

1)人臉檢測,人臉對齊和FAC(Facial Attribute Classification)問題都是被獨立研究,沒有探索過這三類問題的關係;

2)人臉屬性預測都是使用的相同的網絡結構,但人臉屬性的學習複雜度是不一樣的;

針對以上的兩點問題,作者提出了一個多任務多標籤CNN,DMM-CNN(deep multi-task multi-label CNN);DMM-CNN將人臉關鍵點和人臉屬性分類聯繫起來,同時作者將人臉屬性分爲兩組:客觀(objective)屬性和主觀(subjective)屬性。

該篇論文的貢獻

  1. 作者將人臉關鍵點的學習複雜度劃分爲客觀關鍵點和主觀關鍵點;使用兩個不同級別的SPP(Spatial Pyramid Pooling)層(1-level SPP層和3-level SPP layer)用於提取特徵。
  2. 一個新的動態加權計劃(利用驗證集loss的比例)給人臉屬性自動賦予權值,使得學習處理集中在困難的人臉屬性樣本上;
  3. 提出一個自適應的閾值策略;該策略考慮到各個屬性樣本不均衡性,減少了類別不均衡帶來的問題;

詳細方法細節

Overview

作者使用了resnet50進行特徵提取,同時提取人臉關鍵點和人臉屬性的特徵;

作者使用了兩個不同的空間金字塔池化(SPP)層,提取不同的語言信息,用於主觀屬性和客觀屬性分類;

CNN Architecture

1)Objective Attributes and Subjective Attributes

作者認爲主觀屬性通常以一種微妙的形式,使得CNN難以學的決策邊緣,如微笑,年輕這些主觀屬性,客觀屬性如戴帽子,戴眼鏡;客觀屬性學習作者使用了1-level SPP層和兩個全連接層分別輸出1024和22個維度的特徵;學習主觀屬性使用3-level SPP層和三個全連接層,輸出特徵分別是2048維,1024維,18維(網絡設計爲主觀屬性編碼了高維語義信息(該信息更有利於主觀屬性);)

2)The SPP Layer

SPPlayer可以產生固定長度的輸出,無論輸入尺寸怎樣,有效避免了裁剪輸入圖片;使用SPP後,可以輸入任意尺寸的臉部圖片;

3)Facial Landmark Detection(FLD)

人臉屬性分類是主要任務,而關鍵點分類是輔助任務,同時標註的關鍵點增添至72個。

4)Training

爲了處理不同人臉屬性,作者提出了動態權值計劃,自動給不同的屬性賦予權值;同時爲了減少樣本不均衡問題,作者使用了自適應的閾值策略預測多種屬性標籤;

文中,作者使用了均方誤差(MSE)loss;

a. 人臉關鍵點檢測(FLD):MSE在人臉關鍵點上的形式

 

N:訓練圖片的總數量, 預測的人臉關鍵點, 真實標註的人臉關鍵點;

b.人臉屬性分類:MSE loss在FAC上形式:

分別代表了預測屬性結果和標籤結果,第i張圖片的第j類屬性;

 

c.聯合loss函數:聯合loss函數分別是包括人臉屬性分類和人臉關鍵點檢測:

是人臉屬性總數,  代表在第t次迭代中第j個人臉屬性的權值向量。是迴歸參數,設置爲0.5.

 

d.動態加權計劃(具體可查看本文參考文獻【31】)。

就是驗證loss(基於公式2計算)。

 

訓練特點:在訓練初始化時,容易分類的屬性基於較大的權值,以便MSE loss可以快速下降;在最後的訓練階段,網絡主要訓練難以分類的屬性。

e.自適應閾值策略。作者預測第j個人臉屬性基於網絡結構的最終輸出

是閾值參數,爲了解決樣本不均衡帶來的影響,作者提出的自適應閾值策略:

是第t輪迭代的閾值;代表了驗證集樣本數量; 分別代表了在t輪迭代中假陽例和假陰例的數量;就是固定閾值設置爲0.01,DMM-CNN算法總結如算法1, 代表當前的epoch數;

試驗:

1、Datasets and Parameter Settings

CelebA和LFWA數據集

2、Ablation Study

作者提出的方法DMM-CNN,基線網絡使用resNet50提取特徵和屬性分類;

DMM-FAC代表只使用屬性分類,而不使用人臉人臉關鍵點輔助功能;

DMM-EQ-FIX代表使用了相同的權值的各個屬性,不使用動態的加權計劃,使用固定閾值去預測每一類屬性;

DMM-DW-FIX代表使用動態加權,但是固定閾值;

DMM-SPP代表使用3-level SPP層和全連接層去預測所有屬性(使用相同的網絡結構用於主觀屬性分支),屬性也不進行分組;詳細結果爲表1:

測試結果如圖3:

 

結論:

1)和基線相比,所有的變體都獲得了更好的結果(特別是:ArchedEyebrowns,Big Lips,Narrow Eyes)該結論強調了人臉屬性分類任務需要特別處理;

2)比較DMM-FAC和DMM-CNN,說明探索FAC和FLD之間的關係有助於提升FAC的性能;3)DMM-DW-FIX與DMM-EQ-FIX相比,前者獲得了更好的性能,說明動態加權的重要性;

4)通過比較DMM-EQ-AT和DMM-EQ-FIX,,展示了自適應閾值策略的重要性;

5)DMM-SPP和DMM-CNN相比,DMM-CNN獲得了更好的效果,展示了設計不同的網絡結構對於不同的學習複雜度人臉屬性有益,幫助提升FAC的結果;

7)DMM-CNN獲得了最佳的效果,說明針對不同的學習難度的人臉屬性,DMM-CNN有效提升了多標籤多類別任務的性能;

作者還比較了四種最具代表性加權計劃:1)統一的加權計劃,所有屬性權值都設置爲1,2)動態加權平均(DWA)計劃(在參考文獻【30】中提出),在訓練集合中loss權值變化用於自動的權值學習;3)自適應加權(AW)計劃(在參考文獻【38】中提出),驗證loss和平均驗證loss用於獲得權值;4)提出了動態加權計劃(DW),基於所有驗證集中驗證loss值得比例;表2給出了實驗結果:

結論:通過表中的結果,可以看出作者的方法獲得了最佳的效果;

圖5比較動態加權計劃(DW)和固定動態加權計劃(FIX)的驗證集loss;

結論:圖5中,作者觀察了平均驗證loss和兩個最具代表性的屬性loss(“mouseopen”和“young” )。比較動態加權計劃和固定加權計劃(權值設定爲1)的曲線,可以得知動態加權loss下降比較快。同時客觀屬性(“mouseopen”)收斂速度快於主觀屬性;說明動態加權計劃對於不同學習複雜度多標籤任務具有重要的作用;

圖6查看了動態權值的變化:

結論:圖6中可以看到兩個屬性的動態權值不太穩定,主要是因爲在訓練過程中加權主要依據屬性損失的變化。在訓練過程中,當loss下降數值較大時,賦予的權值將比較大,因爲學習過程中屬性沒有擬合。動態權值反映了不同屬性的學習率;但是兩個屬性的loss都在下降,而且擬合比較穩定(圖5)

圖7反應訓練過程中自適應閾值的變化

結論,通過曲線可以得知作者提出的自適應閾值,隨着迭代的變化,屬性閾值變化非常穩定;

3、Comparison with State-of-the-art FAC Methods

結論:

  1. 在celebA數據集上,作者方法優於PANDA,LNets+ANet,MOON,NSA,MCNN-AUX,MCFA,同時作者只分了兩組進行訓練,少於MCNN-AUX的九組,作者認爲使用文中的分組機制和人臉關鍵點是有效的;與AW-CNN效果相似;
  2. 在LFWA數據集上,作者的方法與MCNN-AUX相比,效果差不多;比GNAS效果好,而且GNAS特別耗時;
  3. 作者提出的方法比PS-MCNN-LC效果差,但是PS-MCNN-LC方法需要人臉身份信息,而且在SNet和TSNet中通道數的選擇非常苛刻,容易影響最終的性能;

看此篇論文的疑問:

1、SPP很耗時間?

2、都是客觀屬性(如:戴帽子,戴口罩)又當怎麼處理;

3、人臉關鍵點檢測單獨在某類屬性中使用又對模型有什麼幫助; 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章