此文由香港中文大學湯曉鷗教授團隊於2014年發表
論文鏈接:http://mmlab.ie.cuhk.edu.hk/pdf/YiSun_CVPR14.pdf
1.研究問題
主要通過神經網絡學習圖像特徵,通過分類器驗證人臉。
2.此文工作
2.1 人臉特徵表達
2.1.1 網絡結構
一共四個卷積層,前三個卷基層後都有Max-pooling
在最後一個隱藏層,是由Max-pooling layer3 + Convolutional layer4 全連接而得,爲160維。這樣的連接方式既考慮到了局部的特徵,也考慮到全局特徵
最後的soft-max訓練時使用,檢測時不用,而如果使用soft-max進行分類、識別,效果很差
用於人臉識別和人臉驗證的特徵是最後一個隱藏層,稱爲DeepID。
2.1.2 人臉特徵
將輸入圖片縮放爲三個比例尺大小,並且分爲彩色和灰度圖像,最後還將圖片切分爲10個patch, 所以最後輸入的patch 數爲:3 2 10=60。
對每一種patch 都訓練一個卷積網絡,一共需要訓練60個卷積網絡。
所有patch 輸出的特徵連接起來,一共爲19200(160 2 60),再利用PCA降維到150維用於人臉驗證與區分。
2.2 人臉驗證方法
2.2.1 聯合貝葉斯
通過類內方差與類間方差之間的關係判斷兩個特徵是否爲一張臉。有一些推導,具體過程不詳述。
2.2.2 神經網絡
分成60個group,每個group對應一個patch,其中有160(單個網絡輸出)* 2(flip) * 2(對比的兩張臉)=640維。輸出爲單一特徵,表示相似性,由sigmoid生成。
2.3 實驗與討論
訓練數據:CeleFaces+, 有10177人,202599張圖片;8700人訓練DeepID,1477人訓練聯合貝葉斯分類器。準確率達到97.45%
其他一些結論:
使用multi-scale patch 的卷積網絡效果比只用一張圖片好
訓練樣本中的身份數量越多,訓練得出的模型越優
3.總結
提出將人臉圖像分爲多個patch, 對每個patch 分別訓練神經網絡,這樣的效果明顯優於純粹輸入圖片訓練。進一步提高了精度。