Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification(FAC)

論文鏈接:

1.Abstract

人臉檢測,人臉對齊和FAC問題都是被獨立研究,沒有探索過這三類問題的關係;2)人臉屬性預測都是使用的相同的網絡結構,但人臉屬性的學習複雜度是不一樣的;針對以上的兩點問題,作者提出了一個多任務多標籤CNN,DMM-CNN(deep multi-task multi-label CNN);DMM-CNN將人臉關鍵點和人臉檢測聯繫起來,同時作者將人臉屬性分爲兩組:客觀(objective)屬性和主觀(subjective)屬性。

2.Methodology

作者使用了resnet50進行特徵提取,同時提取人臉關鍵點和人臉屬性的特徵;

作者使用了兩個不同的空間金字塔池化(SPP)層,提取不同的語言信息,用於主觀屬性和客觀屬性分類;

 

Objective Attributes and Subjective Attributes

作者認爲主觀屬性通常以一種微妙的形式,使得CNN難以學的決策邊緣,如微笑,年輕這些主觀屬性,客觀屬性如戴帽子,戴眼鏡;客觀屬性學習使用1-level SPP層和兩個全連接層分別輸出1024和22個維度;學習主觀屬性使用3-level SPP層和三個全連接層,輸出特徵分別是2048維,1024維,18維。網絡設計主觀屬性編碼高維語義信息(該信息更有利於客觀屬性);

The SPP Layer

SPPlayer可以產生固定長度的輸出,無論輸入尺寸怎樣,有效避免了裁剪輸入圖片;使用SPP後,可以輸入任意尺寸的臉部圖片;

 

Facial Landmark Detection(FLD)

人臉屬性分類是主要任務,而關鍵點分類是輔助任務,同時標註的關鍵點增添至72個。

Training

爲了處理不同人臉屬性,作者提出了動態權值計劃,自動給不同的屬性賦予權值;同時爲了減少樣本不均衡問題,作者使用了自適應的閾值策略預測多種屬性標籤;

文中,作者使用了均方誤差(MSE)loss;

1)人臉關鍵點檢測(FLD):MSE在人臉關鍵點上的形式

N:訓練圖片的總數量,預測的人臉關鍵點,真實標註的人臉關鍵點;

2)人臉屬性分類:MSE loss在FAC上形式:

分別代表了預測屬性結果和真是標籤結果;

3)聯合loss函數:聯合loss函數分別是包括人臉屬性分類和人臉關鍵點檢測:

是人臉關鍵點總數,代表第j個人臉關鍵點權值矢量(在第t次迭代中)。是迴歸參數,設置爲0.5.

  1. 動態加權計劃。作者提出使用參考文獻【31】進行動態加權。

就是驗證loss(基於公式2計算)。但loss沒有下降時,就給予值較小的權值,反之,基於較大的權值;

在訓練初始化時,容易分類的屬性基於較大的權值,以便MSE loss可以快速下降;在最後的訓練階段,網絡主要訓練難以分類的屬性。

5)自適應閾值策略。作者預測第j個人臉關鍵點基於網絡結構的最終輸出:

是閾值參數,爲了留意樣本不均衡帶來的影響,作者提出的自適應閾值策略:

是第輪迭代的閾值;代表了驗證集樣本數量;分別代表了在t輪迭代中假樣例和假陰例的數量;當大,而較小時,閾值應當大一些,用於調整閾值;就是固定閾值設置爲0.01.DMM-CNN算法總結如算法1.

看此篇論文的疑問:

1)SPP很耗時間?

2)都是客觀屬性(如:戴帽子,戴口罩)又當怎麼處理;

3)人臉關鍵點檢測單獨在某類屬性中使用又對模型有什麼幫助; 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章