【人臉屬性分類】Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification（FAC）

論文鏈接：https://arxiv.org/abs/2002.03683

動機

1）人臉檢測，人臉對齊和FAC（Facial Attribute Classification）問題都是被獨立研究，沒有探索過這三類問題的關係；

2）人臉屬性預測都是使用的相同的網絡結構，但人臉屬性的學習複雜度是不一樣的；

針對以上的兩點問題，作者提出了一個多任務多標籤CNN，DMM-CNN（deep multi-task multi-label CNN）；DMM-CNN將人臉關鍵點和人臉屬性分類聯繫起來，同時作者將人臉屬性分爲兩組：客觀（objective）屬性和主觀（subjective）屬性。

該篇論文的貢獻

作者將人臉關鍵點的學習複雜度劃分爲客觀關鍵點和主觀關鍵點；使用兩個不同級別的SPP（Spatial Pyramid Pooling）層（1-level SPP層和3-level SPP layer）用於提取特徵。
一個新的動態加權計劃（利用驗證集loss的比例）給人臉屬性自動賦予權值，使得學習處理集中在困難的人臉屬性樣本上；
提出一個自適應的閾值策略；該策略考慮到各個屬性樣本不均衡性，減少了類別不均衡帶來的問題；

詳細方法細節：

Overview

作者使用了resnet50進行特徵提取，同時提取人臉關鍵點和人臉屬性的特徵；

作者使用了兩個不同的空間金字塔池化（SPP）層，提取不同的語言信息，用於主觀屬性和客觀屬性分類；

CNN Architecture

1）Objective Attributes and Subjective Attributes

作者認爲主觀屬性通常以一種微妙的形式，使得CNN難以學的決策邊緣，如微笑，年輕這些主觀屬性，客觀屬性如戴帽子，戴眼鏡；客觀屬性學習作者使用了1-level SPP層和兩個全連接層分別輸出1024和22個維度的特徵；學習主觀屬性使用3-level SPP層和三個全連接層，輸出特徵分別是2048維，1024維，18維（網絡設計爲主觀屬性編碼了高維語義信息（該信息更有利於主觀屬性）；）

2）The SPP Layer

SPPlayer可以產生固定長度的輸出，無論輸入尺寸怎樣，有效避免了裁剪輸入圖片；使用SPP後，可以輸入任意尺寸的臉部圖片；

3）Facial Landmark Detection（FLD）

人臉屬性分類是主要任務，而關鍵點分類是輔助任務，同時標註的關鍵點增添至72個。

4）Training

爲了處理不同人臉屬性，作者提出了動態權值計劃，自動給不同的屬性賦予權值；同時爲了減少樣本不均衡問題，作者使用了自適應的閾值策略預測多種屬性標籤；

文中，作者使用了均方誤差（MSE）loss；

a. 人臉關鍵點檢測（FLD）：MSE在人臉關鍵點上的形式

N:訓練圖片的總數量，預測的人臉關鍵點，真實標註的人臉關鍵點；

b.人臉屬性分類：MSE loss在FAC上形式：

分別代表了預測屬性結果和標籤結果，第i張圖片的第j類屬性；

c.聯合loss函數：聯合loss函數分別是包括人臉屬性分類和人臉關鍵點檢測：

是人臉屬性總數，代表在第t次迭代中第j個人臉屬性的權值向量。是迴歸參數，設置爲0.5.

d.動態加權計劃（具體可查看本文參考文獻【31】）。

就是驗證loss（基於公式2計算）。

訓練特點：在訓練初始化時，容易分類的屬性基於較大的權值，以便MSE loss可以快速下降；在最後的訓練階段，網絡主要訓練難以分類的屬性。

e.自適應閾值策略。作者預測第j個人臉屬性基於網絡結構的最終輸出：

是閾值參數，爲了解決樣本不均衡帶來的影響，作者提出的自適應閾值策略：

是第t輪迭代的閾值；代表了驗證集樣本數量；分別代表了在t輪迭代中假陽例和假陰例的數量；就是固定閾值設置爲0.01，DMM-CNN算法總結如算法1, 代表當前的epoch數；

試驗：

1、Datasets and Parameter Settings

CelebA和LFWA數據集

2、Ablation Study

作者提出的方法DMM-CNN，基線網絡使用resNet50提取特徵和屬性分類；

DMM-FAC代表只使用屬性分類，而不使用人臉人臉關鍵點輔助功能；

DMM-EQ-FIX代表使用了相同的權值的各個屬性，不使用動態的加權計劃，使用固定閾值去預測每一類屬性；

DMM-DW-FIX代表使用動態加權，但是固定閾值；

DMM-SPP代表使用3-level SPP層和全連接層去預測所有屬性（使用相同的網絡結構用於主觀屬性分支），屬性也不進行分組；詳細結果爲表1：

測試結果如圖3：

結論:

1)和基線相比，所有的變體都獲得了更好的結果（特別是：ArchedEyebrowns,Big Lips,Narrow Eyes）該結論強調了人臉屬性分類任務需要特別處理；

2）比較DMM-FAC和DMM-CNN，說明探索FAC和FLD之間的關係有助於提升FAC的性能；3）DMM-DW-FIX與DMM-EQ-FIX相比，前者獲得了更好的性能，說明動態加權的重要性；

4)通過比較DMM-EQ-AT和DMM-EQ-FIX，，展示了自適應閾值策略的重要性；

5）DMM-SPP和DMM-CNN相比，DMM-CNN獲得了更好的效果，展示了設計不同的網絡結構對於不同的學習複雜度人臉屬性有益，幫助提升FAC的結果；

7）DMM-CNN獲得了最佳的效果，說明針對不同的學習難度的人臉屬性，DMM-CNN有效提升了多標籤多類別任務的性能；

作者還比較了四種最具代表性加權計劃：1）統一的加權計劃，所有屬性權值都設置爲1，2）動態加權平均（DWA）計劃（在參考文獻【30】中提出），在訓練集合中loss權值變化用於自動的權值學習；3）自適應加權（AW）計劃（在參考文獻【38】中提出），驗證loss和平均驗證loss用於獲得權值；4）提出了動態加權計劃（DW），基於所有驗證集中驗證loss值得比例；表2給出了實驗結果：

結論：通過表中的結果，可以看出作者的方法獲得了最佳的效果；

圖5比較動態加權計劃（DW）和固定動態加權計劃（FIX）的驗證集loss；

結論：圖5中，作者觀察了平均驗證loss和兩個最具代表性的屬性loss（“mouseopen”和“young” ）。比較動態加權計劃和固定加權計劃（權值設定爲1）的曲線，可以得知動態加權loss下降比較快。同時客觀屬性（“mouseopen”）收斂速度快於主觀屬性；說明動態加權計劃對於不同學習複雜度多標籤任務具有重要的作用；

圖6查看了動態權值的變化：

結論：圖6中可以看到兩個屬性的動態權值不太穩定，主要是因爲在訓練過程中加權主要依據屬性損失的變化。在訓練過程中，當loss下降數值較大時，賦予的權值將比較大，因爲學習過程中屬性沒有擬合。動態權值反映了不同屬性的學習率；但是兩個屬性的loss都在下降，而且擬合比較穩定（圖5）

圖7反應訓練過程中自適應閾值的變化

結論，通過曲線可以得知作者提出的自適應閾值，隨着迭代的變化，屬性閾值變化非常穩定；

3、Comparison with State-of-the-art FAC Methods

結論：

在celebA數據集上，作者方法優於PANDA,LNets+ANet,MOON,NSA,MCNN-AUX,MCFA,同時作者只分了兩組進行訓練，少於MCNN-AUX的九組，作者認爲使用文中的分組機制和人臉關鍵點是有效的；與AW-CNN效果相似；
在LFWA數據集上，作者的方法與MCNN-AUX相比，效果差不多；比GNAS效果好，而且GNAS特別耗時；
作者提出的方法比PS-MCNN-LC效果差，但是PS-MCNN-LC方法需要人臉身份信息，而且在SNet和TSNet中通道數的選擇非常苛刻，容易影響最終的性能；

看此篇論文的疑問：

1、SPP很耗時間？

2、都是客觀屬性（如：戴帽子，戴口罩）又當怎麼處理；

3、人臉關鍵點檢測單獨在某類屬性中使用又對模型有什麼幫助；

【人臉屬性分類】Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification（FAC）

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

本地SSL證書過期輸入命令在IIS自動生成

AdaBN(Adaptive Batch Normalization)使用

[人臉識別] Towards Flops-constrained Face Recognition

查看：文件夾個數，遍歷圖片個數，IO口數據讀取情況，CPU利用情況

[注意力機制]CBAM:Convolutional Block Attention Module

人臉識別之歐氏距離——餘弦距離

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結