論文鏈接:https://arxiv.org/abs/2002.03683
動機
1)人臉檢測,人臉對齊和FAC(Facial Attribute Classification)問題都是被獨立研究,沒有探索過這三類問題的關係;
2)人臉屬性預測都是使用的相同的網絡結構,但人臉屬性的學習複雜度是不一樣的;
針對以上的兩點問題,作者提出了一個多任務多標籤CNN,DMM-CNN(deep multi-task multi-label CNN);DMM-CNN將人臉關鍵點和人臉屬性分類聯繫起來,同時作者將人臉屬性分爲兩組:客觀(objective)屬性和主觀(subjective)屬性。
該篇論文的貢獻
- 作者將人臉關鍵點的學習複雜度劃分爲客觀關鍵點和主觀關鍵點;使用兩個不同級別的SPP(Spatial Pyramid Pooling)層(1-level SPP層和3-level SPP layer)用於提取特徵。
- 一個新的動態加權計劃(利用驗證集loss的比例)給人臉屬性自動賦予權值,使得學習處理集中在困難的人臉屬性樣本上;
- 提出一個自適應的閾值策略;該策略考慮到各個屬性樣本不均衡性,減少了類別不均衡帶來的問題;
詳細方法細節:
Overview
作者使用了resnet50進行特徵提取,同時提取人臉關鍵點和人臉屬性的特徵;
作者使用了兩個不同的空間金字塔池化(SPP)層,提取不同的語言信息,用於主觀屬性和客觀屬性分類;
CNN Architecture
1)Objective Attributes and Subjective Attributes
作者認爲主觀屬性通常以一種微妙的形式,使得CNN難以學的決策邊緣,如微笑,年輕這些主觀屬性,客觀屬性如戴帽子,戴眼鏡;客觀屬性學習作者使用了1-level SPP層和兩個全連接層分別輸出1024和22個維度的特徵;學習主觀屬性使用3-level SPP層和三個全連接層,輸出特徵分別是2048維,1024維,18維(網絡設計爲主觀屬性編碼了高維語義信息(該信息更有利於主觀屬性);)
2)The SPP Layer
SPPlayer可以產生固定長度的輸出,無論輸入尺寸怎樣,有效避免了裁剪輸入圖片;使用SPP後,可以輸入任意尺寸的臉部圖片;
3)Facial Landmark Detection(FLD)
人臉屬性分類是主要任務,而關鍵點分類是輔助任務,同時標註的關鍵點增添至72個。
4)Training
爲了處理不同人臉屬性,作者提出了動態權值計劃,自動給不同的屬性賦予權值;同時爲了減少樣本不均衡問題,作者使用了自適應的閾值策略預測多種屬性標籤;
文中,作者使用了均方誤差(MSE)loss;
a. 人臉關鍵點檢測(FLD):MSE在人臉關鍵點上的形式
N:訓練圖片的總數量, 預測的人臉關鍵點, 真實標註的人臉關鍵點;
b.人臉屬性分類:MSE loss在FAC上形式:
分別代表了預測屬性結果和標籤結果,第i張圖片的第j類屬性;
c.聯合loss函數:聯合loss函數分別是包括人臉屬性分類和人臉關鍵點檢測:
是人臉屬性總數, 代表在第t次迭代中第j個人臉屬性的權值向量。是迴歸參數,設置爲0.5.
d.動態加權計劃(具體可查看本文參考文獻【31】)。
就是驗證loss(基於公式2計算)。
訓練特點:在訓練初始化時,容易分類的屬性基於較大的權值,以便MSE loss可以快速下降;在最後的訓練階段,網絡主要訓練難以分類的屬性。
e.自適應閾值策略。作者預測第j個人臉屬性基於網絡結構的最終輸出:
是閾值參數,爲了解決樣本不均衡帶來的影響,作者提出的自適應閾值策略:
是第t輪迭代的閾值;代表了驗證集樣本數量; 分別代表了在t輪迭代中假陽例和假陰例的數量;就是固定閾值設置爲0.01,DMM-CNN算法總結如算法1, 代表當前的epoch數;
試驗:
1、Datasets and Parameter Settings
CelebA和LFWA數據集
2、Ablation Study
作者提出的方法DMM-CNN,基線網絡使用resNet50提取特徵和屬性分類;
DMM-FAC代表只使用屬性分類,而不使用人臉人臉關鍵點輔助功能;
DMM-EQ-FIX代表使用了相同的權值的各個屬性,不使用動態的加權計劃,使用固定閾值去預測每一類屬性;
DMM-DW-FIX代表使用動態加權,但是固定閾值;
DMM-SPP代表使用3-level SPP層和全連接層去預測所有屬性(使用相同的網絡結構用於主觀屬性分支),屬性也不進行分組;詳細結果爲表1:
測試結果如圖3:
結論:
1)和基線相比,所有的變體都獲得了更好的結果(特別是:ArchedEyebrowns,Big Lips,Narrow Eyes)該結論強調了人臉屬性分類任務需要特別處理;
2)比較DMM-FAC和DMM-CNN,說明探索FAC和FLD之間的關係有助於提升FAC的性能;3)DMM-DW-FIX與DMM-EQ-FIX相比,前者獲得了更好的性能,說明動態加權的重要性;
4)通過比較DMM-EQ-AT和DMM-EQ-FIX,,展示了自適應閾值策略的重要性;
5)DMM-SPP和DMM-CNN相比,DMM-CNN獲得了更好的效果,展示了設計不同的網絡結構對於不同的學習複雜度人臉屬性有益,幫助提升FAC的結果;
7)DMM-CNN獲得了最佳的效果,說明針對不同的學習難度的人臉屬性,DMM-CNN有效提升了多標籤多類別任務的性能;
作者還比較了四種最具代表性加權計劃:1)統一的加權計劃,所有屬性權值都設置爲1,2)動態加權平均(DWA)計劃(在參考文獻【30】中提出),在訓練集合中loss權值變化用於自動的權值學習;3)自適應加權(AW)計劃(在參考文獻【38】中提出),驗證loss和平均驗證loss用於獲得權值;4)提出了動態加權計劃(DW),基於所有驗證集中驗證loss值得比例;表2給出了實驗結果:
結論:通過表中的結果,可以看出作者的方法獲得了最佳的效果;
圖5比較動態加權計劃(DW)和固定動態加權計劃(FIX)的驗證集loss;
結論:圖5中,作者觀察了平均驗證loss和兩個最具代表性的屬性loss(“mouseopen”和“young” )。比較動態加權計劃和固定加權計劃(權值設定爲1)的曲線,可以得知動態加權loss下降比較快。同時客觀屬性(“mouseopen”)收斂速度快於主觀屬性;說明動態加權計劃對於不同學習複雜度多標籤任務具有重要的作用;
圖6查看了動態權值的變化:
結論:圖6中可以看到兩個屬性的動態權值不太穩定,主要是因爲在訓練過程中加權主要依據屬性損失的變化。在訓練過程中,當loss下降數值較大時,賦予的權值將比較大,因爲學習過程中屬性沒有擬合。動態權值反映了不同屬性的學習率;但是兩個屬性的loss都在下降,而且擬合比較穩定(圖5)
圖7反應訓練過程中自適應閾值的變化
結論,通過曲線可以得知作者提出的自適應閾值,隨着迭代的變化,屬性閾值變化非常穩定;
3、Comparison with State-of-the-art FAC Methods
結論:
- 在celebA數據集上,作者方法優於PANDA,LNets+ANet,MOON,NSA,MCNN-AUX,MCFA,同時作者只分了兩組進行訓練,少於MCNN-AUX的九組,作者認爲使用文中的分組機制和人臉關鍵點是有效的;與AW-CNN效果相似;
- 在LFWA數據集上,作者的方法與MCNN-AUX相比,效果差不多;比GNAS效果好,而且GNAS特別耗時;
- 作者提出的方法比PS-MCNN-LC效果差,但是PS-MCNN-LC方法需要人臉身份信息,而且在SNet和TSNet中通道數的選擇非常苛刻,容易影響最終的性能;
看此篇論文的疑問:
1、SPP很耗時間?
2、都是客觀屬性(如:戴帽子,戴口罩)又當怎麼處理;
3、人臉關鍵點檢測單獨在某類屬性中使用又對模型有什麼幫助;