科普文章-人臉識別發展歷史介紹

這篇文章寫得很“科普”,通俗易懂,是很不錯的人臉識別入門介紹的材料。在看過那些算法之後回過來再看這篇文章,很有感悟。

人臉識別發展歷史介紹

山世光 中國科學院計算技術研究所數字化技術研究室,助理研究員,博士

 

 

1 引言

 

  在我們生存的這個地球上,居住着近65億人。每個人的面孔都由額頭、眉毛、眼睛、鼻子、嘴巴、雙頰等少數幾個區域組合而成,它們之間的大體位置關係也是固定的,並且每張臉的大小不過七八寸見方。然而,它們居然就形成了那麼複雜的模式,即使是面容極其相似的雙胞胎,其家人通常也能夠非常容易地根據他們面孔上的細微差異將他們區分開來。這使得我們不得不承認這個世界上找不出兩張完全相同的人臉!那麼,區分如此衆多的不同人臉的“特徵”到底是什麼?能否設計出具有與人類一樣的人臉識別能力的自動機器?這種自動機器的人臉識別能力是否能夠超越人類自身?對這些問題的分析和解答無疑具有重要的理論和應用價值,這正是衆多從事自動人臉識別研究的研究人員所面臨的挑戰。

 

  然而,對這些問題的回答並不像看起來那麼容易。即使在大量來自模式識別、計算機視覺、神經計算、生理學等領域的研究人員對自動人臉識別艱苦工作40餘年之後,這些最基本的科學問題仍然困惑着研究人員。而退一步講,即使對我們自己,儘管我們每天都在根據面孔區分着親人、同學、朋友、同事等,大多數人卻很難準確地描述出自己到底是如何區分他們的,甚至描述不出自己熟悉的人有什麼具體的特徵。即使專門從事相關的生理學、心理學、神經科學研究的一些專家,也很難描述清楚人類人臉識別的生理學過程。這意味着基於仿生學的人臉識別研究路線在實踐上是難以操作的。當然,飛機的翅膀並不需要像鳥兒的翅膀一樣煽動,自動人臉識別的計算模型也未必需要模擬“人腦”。我們也許可以通過另外的途徑,例如建立人臉識別的計算模型,這種計算模型可能是基於仿生神經網絡的,也可能是純粹基於統計的,或者是這二者之外的第三隻眼睛,並通過構建實用的自動人臉識別系統來驗證這些計算模型,從而找出對上述基本科學問題的解答。

 

  本文首先給出了人臉識別的一個一般計算模型,然後簡單回顧自動人臉識別的研究歷史,接下來闡述人臉識別的研究現狀並介紹幾種主流的技術方法,簡單介紹計算所人臉識別研究組的研究進展,最後對上述哲學層面的問題作了一些簡單的探討。

 

  2 人臉識別發展歷史

 

  人臉識別是一個被廣泛研究着的熱門問題,大量的研究論文層出不窮,在一定程度上有氾濫成“災”之嫌。爲了 更好地對人臉識別研究的歷史和現狀進行介紹,本文將AFR的研究歷史按照研究內容、技術方法等方面的特點大體劃分爲三個時間階段,如表1所示。該表格概括了人臉識別研究的發展簡史及其每個歷史階段代表性的研究工作及其技術特點。下面對三個階段的研究進展情況作簡單介紹:

 

  第一階段(1964年~1990年)

 

  這一階段人臉識別通常只是作爲一個一般性的模式識別問題來研究,所採用的主要技術方案是基於人臉幾何結構特徵(Geometric feature based)的方法。這集中體現在人們對於剪影(Profile)的研究上,人們對面部剪影曲線的結構特徵提取與分析方面進行了大量研究。人工神經網絡也一度曾經被研究人員用於人臉識別問題中。較早從事AFR研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄於1973年在京都大學完成了第一篇AFR方面的博士論文,直到現在,作爲卡內基-梅隆大學(CMU)機器人研究院的一名教授,仍然是人臉識別領域的活躍人物之一。他所在的研究組也是人臉識別領域的一支重要力量。總體而言,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,也基本沒有獲得實際應用。

 

  第二階段(1991年~1997年)

 

  這一階段儘管時間相對短暫,但卻是人臉識別研究的高潮期,可謂碩果累累:不但誕生了若干代表性的人臉識別算法,美國軍方還組織了著名的FERET人臉識別算法測試,並出現了若干商業化運作的人臉識別系統,比如最爲著名的Visionics(現爲Identix)的FaceIt系統。

 

  美國麻省理工學院(MIT)媒體實驗室的特克(Turk)和潘特蘭德(Pentland)提出的“特徵臉”方法無疑是這一時期內最負盛名的人臉識別方法。其後的很多人臉識別技術都或多或少與特徵臉有關係,現在特徵臉已經與歸一化的協相關量(Normalized Correlation)方法一道成爲人臉識別的性能測試基準算法。

 

  這一時期的另一個重要工作是麻省理工學院人工智能實驗室的布魯內裏(Brunelli)和波基奧(Poggio)於1992年左右做的一個對比實驗,他們對比了基於結構特徵的方法與基於模板匹配的方法的識別性能,並給出了一個比較確定的結論:模板匹配的方法優於基於特徵的方法。這一導向性的結論與特徵臉共同作用,基本中止了純粹的基於結構特徵的人臉識別方法研究,並在很大程度上促進了基於表觀(Appearance-based)的線性子空間建模和基於統計模式識別技術的人臉識別方法的發展,使其逐漸成爲主流的人臉識別技術。

 

  貝爾胡米爾(Belhumeur)等提出的Fisherface人臉識別方法是這一時期的另一重要成果。該方法首先採用主成分分析(Principal Component Analysis,PCA,亦即特徵臉)對圖像表觀特徵進行降維。在此基礎上,採用線性判別分析(Linear Discriminant Analysis, LDA)的方法變換降維後的主成分以期獲得“儘量大的類間散度和儘量小的類內散度”。該方法目前仍然是主流的人臉識別方法之一,產生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的LDA判別方法以及近期的一些基於核學習的改進策略。

 

  麻省理工學院的馬哈丹(Moghaddam)則在特徵臉的基礎上,提出了基於雙子空間進行貝葉斯概率估計的人臉識別方法。該方法通過“作差法”,將兩幅人臉圖像對的相似度計算問題轉換爲一個兩類(類內差和類間差)分類問題,類內差和類間差數據都要首先通過主成分分析(PCA)技術進行降維,計算兩個類別的類條件概率密度,最後通過貝葉斯決策(最大似然或者最大後驗概率)的方法來進行人臉識別。

 

  人臉識別中的另一種重要方法——彈性圖匹配技術(Elastic Graph Matching,EGM) 也是在這一階段提出的。其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特徵點,其屬性爲相應特徵點處的多分辨率、多方向局部特徵——Gabor變換[12]特徵,稱爲Jet;邊的屬性則爲不同特徵點之間的幾何關係。對任意輸入人臉圖像,彈性圖匹配通過一種優化搜索策略來定位預先定義的若干面部關鍵特徵點,同時提取它們的Jet特徵,得到輸入圖像的屬性圖。最後通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優點是既保留了面部的全局結構特徵,也對人臉的關鍵局部特徵進行了建模。近來還出現了一些對該方法的擴展。

 

  局部特徵分析技術是由洛克菲勒大學(Rockefeller University)的艾提克(Atick)等人提出的。LFA在本質上是一種基於統計的低維對象描述方法,與只能提取全局特徵而且不能保留局部拓撲結構的PCA相比,LFA在全局PCA描述的基礎上提取的特徵是局部的,並能夠同時保留全局拓撲信息,從而具有更佳的描述和判別能力。LFA技術已商業化爲著名的FaceIt系統,因此後期沒有發表新的學術進展。

 

  由美國國防部反毒品技術發展計劃辦公室資助的FERET項目無疑是該階段內的一個至關重要的事件。FERET項目的目標是要開發能夠爲安全、情報和執法部門使用的AFR技術。該項目包括三部分內容:資助若干項人臉識別研究、創建FERET人臉圖像數據庫、組織FERET人臉識別性能評測。該項目分別於1994年,1995年和1996年組織了3次人臉識別評測,幾種最知名的人臉識別算法都參加了測試,極大地促進了這些算法的改進和實用化。該測試的另一個重要貢獻是給出了人臉識別的進一步發展方向:光照、姿態等非理想採集條件下的人臉識別問題逐漸成爲熱點的研究方向。

 

  柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這一時期內在人臉建模方面的一個重要貢獻。ASM/AAM將人臉描述爲2D形狀和紋理兩個分離的部分,分別用統計的方法進行建模(PCA),然後再進一步通過PCA將二者融合起來對人臉進行統計建模。柔性模型具有良好的人臉合成能力,可以採用基於合成的圖像分析技術來對人臉圖像進行特徵提取與建模。柔性模型目前已被廣泛用於人臉特徵對準(Face Alignment)和識別中,並出現了很多的改進模型。

 

  總體而言,這一階段的人臉識別技術發展非常迅速,所提出的算法在較理想圖像採集條件、對象配合、中小規模正面人臉數據庫上達到了非常好的性能,也因此出現了若干知名的人臉識別商業公司。從技術方案上看, 2D人臉圖像線性子空間判別分析、統計表觀模型、統計模式識別方法是這一階段內的主流技術。

 

  第三階段(1998年~現在)

 

  FERET’96人臉識別算法評估表明:主流的人臉識別技術對光照、姿態等由於非理想採集條件或者對象不配合造成的變化魯棒性比較差。因此,光照、姿態問題逐漸成爲研究熱點。與此同時,人臉識別的商業系統進一步發展。爲此,美國軍方在FERET測試的基礎上分別於2000年和2002年組織了兩次商業系統評測。

 

  基奧蓋蒂斯(Georghiades)等人提出的基於光照錐 (Illumination Cones) 模型的多姿態、多光照條件人臉識別方法是這一時期的重要成果之一,他們證明了一個重要結論:同一人臉在同一視角、不同光照條件下的所有圖像在圖像空間中形成一個凸錐——即光照錐。爲了能夠從少量未知光照條件的人臉圖像中計算光照錐,他們還對傳統的光度立體視覺方法進行了擴展,能夠在朗博模型、凸表面和遠點光源假設條件下,根據未知光照條件的7幅同一視點圖像恢復物體的3D形狀和表面點的表面反射係數(傳統光度立體視覺能夠根據給定的3幅已知光照條件的圖像恢復物體表面的法向量方向),從而可以容易地合成該視角下任意光照條件的圖像,完成光照錐的計算。識別則通過計算輸入圖像到每個光照錐的距離來完成。

 

  以支持向量機爲代表的統計學習理論也在這一時期內被應用到了人臉識別與確認中來。支持向量機是一個兩類分類器,而人臉識別則是一個多類問題。通常有三種策略解決這個問題,即:類內差/類間差法、一對多法(one-to-rest)和一對一法(one-to-one)。

 

  布蘭茲(Blanz)和維特(Vetter)等提出的基於3D變形(3D Morphable Model)模型的多姿態、多光照條件人臉圖像分析與識別方法是這一階段內一項開創性的工作。該方法在本質上屬於基於合成的分析技術,其主要貢獻在於它在3D形狀和紋理統計變形模型(類似於2D時候的AAM)的基礎上,同時還採用圖形學模擬的方法對圖像採集過程的透視投影和光照模型參數進行建模,從而可以使得人臉形狀和紋理等人臉內部屬性與攝像機配置、光照情況等外部參數完全分開,更加有利於人臉圖像的分析與識別。Blanz的實驗表明,該方法在CMU-PIE(多姿態、光照和表情)人臉庫和FERET多姿態人臉庫上都達到了相當高的識別率,證明了該方法的有效性。

 

  2001年的國際計算機視覺大會(ICCV)上,康柏研究院的研究員維奧拉(Viola)和瓊斯(Jones)展示了他們的一個基於簡單矩形特徵和AdaBoost的實時人臉檢測系統,在CIF格式上檢測準正面人臉的速度達到了每秒15幀以上。該方法的主要貢獻包括:1)用可以快速計算的簡單矩形特徵作爲人臉圖像特徵;2)基於AdaBoost將大量弱分類器進行組合形成強分類器的學習方法;3)採用了級聯(Cascade)技術提高檢測速度。目前,基於這種人臉/非人臉學習的策略已經能夠實現準實時的多姿態人臉檢測與跟蹤。這爲後端的人臉識別提供了良好的基礎。

 

  沙蘇哈(Shashua)等於2001年提出了一種基於商圖像[13]的人臉圖像識別與繪製技術。該技術是一種基於特定對象類圖像集合學習的繪製技術,能夠根據訓練集合中的少量不同光照的圖像,合成任意輸入人臉圖像在各種光照條件下的合成圖像。基於此,沙蘇哈等還給出了對各種光照條件不變的人臉簽名(Signature)圖像的定義,可以用於光照不變的人臉識別,實驗表明了其有效性。

 

  巴斯里(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光照、用卷積過程描述朗博反射的方法解析地證明了一個重要的結論:由任意遠點光源獲得的所有朗博反射函數的集合形成一個線性子空間。這意味着一個凸的朗博表面物體在各種光照條件下的圖像集合可以用一個低維的線性子空間來近似。這不僅與先前的光照統計建模方法的經驗實驗結果相吻合,更進一步從理論上促進了線性子空間對象識別方法的發展。而且,這使得用凸優化方法來強制光照函數非負成爲可能,爲光照問題的解決提供了重要思路。

 

  FERET項目之後,涌現了若干人臉識別商業系統。美國國防部有關部門進一步組織了針對人臉識別商業系統的評測FRVT,至今已經舉辦了兩次:FRVT2000和FRVT2002。這兩次測試一方面對知名的人臉識別系統進行了性能比較,例如FRVT2002測試就表明Cognitec, Identix和Eyematic三個商業產品遙遙領先於其他系統,而它們之間的差別不大。另一方面則全面總結了人臉識別技術發展的現狀:較理想條件下(正面簽證照),針對37437人121,589 幅圖像的人臉識別(Identification)最高首選識別率爲73%,人臉驗證(Verification)的等錯誤率(EER[14])大約爲6%。FRVT測試的另一個重要貢獻是還進一步指出了目前的人臉識別算法亟待解決的若干問題。例如,FRVT2002測試就表明:目前的人臉識別商業系統的性能仍然對於室內外光照變化、姿態、時間跨度等變化條件非常敏感,大規模人臉庫上的有效識別問題也很嚴重,這些問題都仍然需要進一步的努力。

 

  總體而言,目前非理想成像條件下(尤其是光照和姿態)、對象不配合、大規模人臉數據庫上的人臉識別問題逐漸成爲研究的熱點問題。而非線性建模方法、統計學習理論、基於Boosting[15]的學習技術、基於3D模型的人臉建模與識別方法等逐漸成爲備受重視的技術發展趨勢。

 

  3 結束語

 

  人臉識別是一項既有科學研究價值,又有廣泛應用前景的研究課題。國際上大量研究人員幾十年的研究取得了豐碩的研究成果,自動人臉識別技術已經在某些限定條件下得到了成功應用。這些成果更加深了我們對於自動人臉識別這個問題的理解,尤其是對其挑戰性的認識。儘管在海量人臉數據比對速度甚至精度方面,現有的自動人臉識別系統可能已經超過了人類,但對於複雜變化條件下的一般人臉識別問題,自動人臉識別系統的魯棒性和準確度還遠不及人類。這種差距產生的本質原因現在還不得而知,畢竟我們對於人類自身的視覺系統的認識還十分膚淺。但從模式識別和計算機視覺等學科的角度判斷,這既可能意味着我們尚未找到對面部信息進行合理採樣的有效傳感器(考慮單目攝像機與人類雙眼系統的差別),更可能意味着我們採用了不合適的人臉建模方法(人臉的內部表示問題),還有可能意味着我們並沒有認識到自動人臉識別技術所能夠達到的極限精度。但無論如何,賦予計算設備與人類似的人臉識別能力是衆多該領域研究人員的夢想。相信隨着研究的繼續深入,我們的認識應該能夠更加準確地逼近這些問題的正確答案。

 

  計算所人臉識別課題組經過多年努力,終於逐漸進入了國際人臉識別競爭的第一方陣。我們提出的新穎算法、完成的高效識別系統也逐漸得到了國內外同行的認可。但我們也必須清醒地看到,在人臉識別領域,其實很難說誰的算法就比別的算法真正地好了多少。而且衆多的研究人員正在加入進來,逆水行舟,慢進則退。我們必須付出更多的艱辛才能真正在算法和系統兩方面超越前人,取得更大的研究成果!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章