人臉定位原來這麼簡單,小白也能上手人臉識別——人臉識別概述

人臉識別的工作原理是什麼?

人臉識別在我們身邊已經有非常多的應用場景了,以下是幾個典型的應用場景

如銀行服務大廳的一體機,可以做活體檢測。標題
移動支付可以用刷臉支付
手持身份證照片的識別
v2-bb3d2eabadc24791cbcc940ef6812515_720w.jpg
美顏相機的特效製作標題

人臉識別的不同的細分領域

1.人臉檢測很早以前在相機上就已經出現,它可以幫助人像照片的對焦;

2.人臉比對,比如智能相冊的相片歸類

3.人臉查找,從門禁或者監控視頻的畫面與數據庫中照片進行匹配,確認相關信息

4.屬性的識別包括性別年齡情緒等屬性,微軟工程師曾經用了認知服務,做了一個測年齡的應用,在互聯網上也很快得到傳播

5.特徵點定位,找出眼耳鼻嘴等人臉上的特徵點

人臉識別原理分析

我們用一張非常簡約的圖來表示系統的構成包括端雲和數。端是智能終端,他負責圖像視頻等數據採集,還有一些預處理;雲是雲服務器負責計算存儲網絡等系統任務;數是數據和模型,包括原始影像數據,監督式學習打上的標籤數據以及訓練出的數據模型等等。

順帶提及一下,對於不同的應用系統部署方式會有所不同,數可以放在端上,也可以放在雲上,放在端的優點,是沒有網絡也可以使用,缺點是需要佔用端的存儲空間,放在雲則恰恰相反,比如Siri的語音識別模型就是放在雲上的,手機是飛行模式時就沒辦法用了。

下面介紹一下技術原理:

人臉識別問題中x是圖像,當然圖像在計算機中的存儲方式是數字矩陣對應圖像的像素點陣,比如1024×768等等,而每個像素點是用數值來表示RGB或者黑白灰,不同的圖像所對應的數字矩陣是不同的,但在數值分佈上會呈現出一定的特徵,比如人臉和五官,不管出現在圖像中的哪個位置,對應的數值都會有一定的規律。

對於人臉檢測問題,y是方框,把人臉能夠裝在方框當中,準確的說也就是這個方框4個點的座標值。

對於人臉特徵點定位的問題呢,y值是這些特徵點的座標值。

而對於年齡識別問題,這是標籤值,身份識別也是標籤值,比如下圖照片對應的ID。

這樣呢,人臉識別的相關問題就都轉換成爲基於數值矩陣的分類或者回歸問題,標籤值如果是男女老少這樣的類別,那是分類問題,標籤值如果是特徵點或者定位框,那就是迴歸問題。

我們以特徵點定位爲例,先看一下演示效果,下圖是某次奧巴馬演講的視頻的截圖,

我們運用機器學習的方法做了人臉特徵點的定位。大家知道視頻是一幀幀的圖像。我們對每一張圖像標註了相應的特徵點,就合成了一下的這個視頻。

來看一下我們的訓練數據集。

x是各種人臉的照片,包括正面側面的各種人像照呢,y是眼耳鼻喉這些關鍵點的座標,我們的目標是用這些數據訓練模型,告訴模型當給定圖像是這樣的數值矩陣型,對應的人臉特徵點在這些位置,我們希望訓練好的模型,對於未知的圖像可以做出正確的特徵點預測。

對於圖像問題最爲常見的模型是卷積神經網絡convolution neural networks。

簡單理解卷積神經網絡運用一系列的數學方法,建立多層結構來提取數據特徵,基於這些數據特徵進行判斷預測。圖中的結構有點類似於人的神經網絡視網膜採集像素,神經元提取顏色輪廓等信息,大腦再將圖像信息與抽象概念進行比對。運用了數學的卷積方法,類似於神經網絡,所以這個結構叫做卷積神經網絡。

在圖中的結構中中間的hidden layers,用於圖像數字矩陣的特徵提取,是可以複用的,對於分類問題,我們右邊用classification的結構。對於迴歸問題,用regulation的結構就可以了。

關於卷積神經網絡可以用博大精深來形容,近年有非常多的研究成果,比如cmu卡耐基梅隆大學的OpenPose,Facebook的Mask R-CNN等等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章