CNN應用之性別、年齡識別

原文地址：http://blog.csdn.net/hjimce/article/details/49255013

作者：hjimce

一、相關理論

　　本篇博文主要講解2015年一篇paper《Age and Gender Classification using Convolutional Neural Networks》，個人感覺這篇文獻沒啥難度，只要懂得Alexnet，實現這篇文獻的算法，會比較容易。其實讀完這篇paper之後，我一直在想paper的創新點在哪裏？因爲我實在沒有看出paper的創新點在哪裏，估計是自己水平太lower了，看文獻沒有抓到文獻的創新點。難道是因爲利用CNN做年齡和性別分類的paper很少嗎？網上搜索了一下，性別預測，以前很多都是用SVM算法，用CNN搞性別分類就只搜索到這一篇文章。個人感覺利用CNN進行圖片分類已經不是什麼新鮮事了，年齡、和性別預測，隨便搞個CNN網絡，然後開始訓練跑起來，也可以獲得不錯的精度。

　　性別分類自然而然是二分類問題，然而對於年齡怎麼搞？年齡預測是迴歸問題嗎？paper採用的方法是把年齡劃分爲多個年齡段，每個年齡段相當於一個類別，這樣性別也就多分類問題了。所以我們不要覺得現在的一些APP，功能好像很牛逼，什麼性別、年齡、衣服類型、是否佩戴眼鏡等識別問題，其實這種識別對於CNN來說，基本上是鬆鬆搞定的事，當然你如果要達到非常高的識別精度，是另外一回事了，就需要各種調參了。

言歸正傳，下面開始講解2015年paper《Age and Gender Classification using Convolutional Neural Networks》的網絡結構，這篇文章沒有什麼新算法，只有調參，改變網絡層數、卷積核大小等……所以如果已經對Alexnet比較熟悉的，可能會覺得看起來沒啥意思，這篇papar的相關源碼和訓練數據，文獻作者有給我們提供，可以到Caffe zoo model：https://github.com/BVLC/caffe/wiki/Model-Zoo 或者文獻的主頁：http://www.openu.ac.il/home/hassner/projects/cnn_agegender/。下載相關訓練好的模型，paper性別、年齡預測的應用場景比較複雜，都是一些非常糟糕的圖片，比較模糊的圖片等，所以如果我們想要直接利用paper訓練好的模型，用到我們自己的項目上，可能精度會比較低，後面我將會具體講一下利用paper的模型進行fine-tuning，以適應我們的應用，提高我們自己項目的識別精度。

二、算法實現

因爲paper的主頁，有提供網絡結構的源碼，我將結合網絡結構文件進行講解。

1、網絡結構

Paper所用的網絡包含：3個卷積層，還有2個全連接層。這個算是層數比較少的CNN網絡模型了，這樣可以避免過擬合。對於年齡的識別，paper僅僅有8個年齡段，相當於8分類模型；然後對於性別識別自然而然是二分類問題了。

然後圖像處理直接採用3通道彩色圖像進行處理，圖片6都統一縮放到256*256，然後再進行裁剪，爲227*227（訓練過程隨機裁剪，驗證測試過程通過矩形的四個角+中心裁剪），也就是說網絡的輸入時227*227的3通道彩色圖像，總之基本上跟Alexnet一樣。

網絡模型：

(1)第一層：採用96個卷積核，每個卷積核參數個數爲3*7*7，這個就相當於3個7*7大小的卷積核在每個通道進行卷積。激活函數採用ReLU，池化採用最大重疊池化，池化的size選擇3*3，strides選擇2。然後接着再來一個局部響應歸一化層。什麼叫局部響應歸一化，自己可以查看一下文獻：《ImageNet Classification with Deep Convolutional Neural Networks》，局部響應歸一化可以提高網絡的泛化能力。

局部響應歸一化，這個分成兩種情況，一種是3D的歸一化，也就是特徵圖之間對應像素點的一個歸一化。還有一種是2D歸一化，就是對特徵圖的每個像素的局部做歸一化。局部響應歸一化其實這個可有可無，精度提高不了多少，如果你還不懂上面那個公式也沒有關係。我們可以利用最新的算法：Batch Normalize ，這個才牛逼呢，2015年，我覺得最牛逼的算法之一，不僅提高了訓練速度，連精度也提高了。過程：通過7*7大小的卷積核，對227*227圖片卷積，然後特徵圖的個數爲96個，每個特徵圖都是三通道的,這個作者沒有講到卷積層的stride大小，不過我們大體可以推測出來，因爲paper的網絡結構是模仿：ImageNet Classification with Deep Convolutional Neural Networks的網絡結構的，連輸入圖片的大小也是一樣的，這篇文獻的第一層如下所示：

我們可以推測出，paper選擇的卷積步長爲4，這樣經過卷積後，然後pad爲2，這樣經過卷積後圖片的大小爲：(227-7)/4+1=56。然後經過3*3，且步長爲2的大小，進行重疊池化，可以得到：56/2=28*28大小的圖片，具體邊界需要補齊。下面是原文的第一層結構示意圖：

[python] view plain copy

layers {
name: "conv1"
type: CONVOLUTION
bottom: "data"
top: "conv1"
blobs_lr: 1
blobs_lr: 2
weight_decay: 1
weight_decay: 0
convolution_param {
num_output: 96
kernel_size: 7
stride: 4
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0
}
}
}
layers {
name: "relu1"
type: RELU
bottom: "conv1"
top: "conv1"
}
layers {
name: "pool1"
type: POOLING
bottom: "conv1"
top: "pool1"
pooling_param {
pool: MAX
kernel_size: 3
stride: 2
}
}
layers {
name: "norm1"
type: LRN
bottom: "pool1"
top: "norm1"
lrn_param {
local_size: 5
alpha: 0.0001
beta: 0.75
}
}

(2)第二層：第二層的輸入也就是96*28*28的單通道圖片，因爲我們上一步已經把三通道合在一起進行卷積了。第二層結構，選擇256個濾波器，濾波器大小爲5*5，卷積步長爲1，這個也可以參考AlexNet的結構。池化也是選擇跟上面的一樣的參數。

[python] view plain copy

layers {
name: "conv2"
type: CONVOLUTION
bottom: "norm1"
top: "conv2"
blobs_lr: 1
blobs_lr: 2
weight_decay: 1
weight_decay: 0
convolution_param {
num_output: 256
pad: 2
kernel_size: 5
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 1
}
}
}
layers {
name: "relu2"
type: RELU
bottom: "conv2"
top: "conv2"
}
layers {
name: "pool2"
type: POOLING
bottom: "conv2"
top: "pool2"
pooling_param {
pool: MAX
kernel_size: 3
stride: 2
}
}
layers {
name: "norm2"
type: LRN
bottom: "pool2"
top: "norm2"
lrn_param {
local_size: 5
alpha: 0.0001
beta: 0.75
}
}

(3)第三層：濾波器個數選擇384，卷積核大小爲3*3。

[python] view plain copy

layers {
name: "conv3"
type: CONVOLUTION
bottom: "norm2"
top: "conv3"
blobs_lr: 1
blobs_lr: 2
weight_decay: 1
weight_decay: 0
convolution_param {
num_output: 384
pad: 1
kernel_size: 3
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0
}
}
}
layers {
name: "relu3"
type: RELU
bottom: "conv3"
top: "conv3"
}
layers {
name: "pool5"
type: POOLING
bottom: "conv3"
top: "pool5"
pooling_param {
pool: MAX
kernel_size: 3
stride: 2
}
}

(4)第四層：第一個全連接層，神經元個數選擇512。

[python] view plain copy

layers {
name: "fc6"
type: INNER_PRODUCT
bottom: "pool5"
top: "fc6"
blobs_lr: 1
blobs_lr: 2
weight_decay: 1
weight_decay: 0
inner_product_param {
num_output: 512
weight_filler {
type: "gaussian"
std: 0.005
}
bias_filler {
type: "constant"
value: 1
}
}
}
layers {
name: "relu6"
type: RELU
bottom: "fc6"
top: "fc6"
}
layers {
name: "drop6"
type: DROPOUT
bottom: "fc6"
top: "fc6"
dropout_param {
dropout_ratio: 0.5
}
}

(5)第五層：第二個全連接層，神經元個數也是選擇512。

[python] view plain copy

layers {
name: "fc7"
type: INNER_PRODUCT
bottom: "fc6"
top: "fc7"
blobs_lr: 1
blobs_lr: 2
weight_decay: 1
weight_decay: 0
inner_product_param {
num_output: 512
weight_filler {
type: "gaussian"
std: 0.005
}
bias_filler {
type: "constant"
value: 1
}
}
}
layers {
name: "relu7"
type: RELU
bottom: "fc7"
top: "fc7"
}
layers {
name: "drop7"
type: DROPOUT
bottom: "fc7"
top: "fc7"
dropout_param {
dropout_ratio: 0.5
}
}

(6)第六次：輸出層，對於性別來說是二分類，輸入神經元個數爲2。

[python] view plain copy

layers {
name: "fc8"
type: INNER_PRODUCT
bottom: "fc7"
top: "fc8"
blobs_lr: 10
blobs_lr: 20
weight_decay: 1
weight_decay: 0
inner_product_param {
num_output: 2
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0
}
}
}
layers {
name: "accuracy"
type: ACCURACY
bottom: "fc8"
bottom: "label"
top: "accuracy"
include: { phase: TEST }
}
layers {
name: "loss"
type: SOFTMAX_LOSS
bottom: "fc8"
bottom: "label"
top: "loss"
}

網絡方面，paper沒有什麼創新點，模仿AlexNet結構。

2、網絡訓練

(1)初始化參數：權重初始化方法採用標準差爲0.01，均值爲0的高斯正太分佈。

(2)網絡訓練：採用dropout，來限制過擬合。Drop out比例採用0.5，還有就是數據擴充，數據擴充石通過輸入256*256的圖片，然後進行隨機裁剪，裁剪爲227*227的圖片，當然裁剪要以face中心爲基礎，進行裁剪。

(3)訓練方法採用，隨機梯度下降法，min-batch 大小選擇50，學習率大小0.001，然後當迭代到10000次以後，把學習率調爲0.0001。

(4)結果預測：預測方法採用輸入一張256*256的圖片，然後進行裁剪5張圖片爲227*227大小，其中四張圖片的裁剪方法分別採用以256*256的圖片的4個角爲基點點，進行裁剪。然後最後一張，以人臉的中心爲基點進行裁剪。然後對這5張圖片進行預測，最後對預測結果進行平均。

三、實際應用

　　文獻作者給我們提供，可以到Caffe zoo model：https://github.com/BVLC/caffe/wiki/Model-Zoo 或者文獻的主頁：http://www.openu.ac.il/home/hassner/projects/cnn_agegender/。下載相關訓練好的模型，paper性別、年齡預測的應用場景比較複雜，都是一些非常糟糕的圖片，比較模糊的圖片等，所以如果我們想要直接利用paper訓練好的模型，用到我們自己的項目上，可能精度會比較低。我測試了一下，直接使用paper給的模型，在我的數據上進行測試，我的數據是中國人、，然後也比較清晰，直接用作者訓練好的模型，精度爲0.82左右，這個精度對於我們實際的工程應用還差很遠。後面就要發揮自己的調參、技巧把精度提高上去，才能達到95%以上的精度，具體因爲項目保密，所以不再囉嗦。最後預測結果如下：

測試精度：

總結：看完這篇文獻，感覺沒看到什麼比較牛逼的創新點，只是把Alexnet網絡改一改而已，個人感覺AlexNet的一些算法已經過時了，現在各種最新牛逼文獻的算法一大堆，隨便找一個，調一調參，應該可以得到更高的精度，因爲畢竟圖片分類的算法更新太快了。年齡預測方面，因爲自己的項目用不到，而且年齡預測這個東西，精度一向很低，很容易受光照、拍攝角度等因素影響，即便是我們人類，也很難精確判斷一個人的年齡，有的人五十幾歲了，但是看起來卻很年輕……

PS：趕緊研究深度學習算法去，現在大部分深度學習的文章，有的文獻只是稍微改一下參數、改一下結構，然後發現精度state-of-art，於是發表paper，很容易就被錄用了。

參考文獻：

1、《Age and Gender Classification using Convolutional Neural Networks》

2、《ImageNet Classification with Deep Convolutional Neural Networks》

3、http://www.openu.ac.il/home/hassner/projects/cnn_agegender/

４、https://github.com/BVLC/caffe/wiki/Model-Zoo

**********************作者：hjimce 時間：2015.10.15 聯繫QQ：1393852684 原創文章，轉載請保留原文地址、作者等信息***************