人臉表情識別研究

隨着機器學習和深度神經網絡兩個領域的迅速發展以及智能設備的普及,人臉識別技術正在經歷前所未有的發展,關於人臉識別技術討論從未停歇。目前,人臉識別精度已經超過人眼,同時大規模普及的軟硬件基礎條件也已具備,應用市場和領域需求很大,基於這項技術的市場發展和具體應用正呈現蓬勃發展態勢。

人臉表情識別(facial expression recognition, FER)作爲人臉識別技術中的一個重要組成部分,近年來在人機交互、安全、機器人制造、自動化、醫療、通信和駕駛領域得到了廣泛的關注,成爲學術界和工業界的研究熱點。本文將對人臉識別中的表情識別的相關內容做一個較爲詳細的綜述。

1表情相關概述

1.1 表情定義與分類

“表情”是我們日常生活中提到很多的一個詞語,在人際溝通中,人們通過控制自己的面部表情,可以加強溝通效果。人臉表情是傳播人類情感信息與協調人際關係的重要方式,據心理學家A.Mehrabia的研究表明,在人類的日常交流中,通過語言傳遞的信息僅佔信息總量的7%,而通過人臉表情傳遞的信息卻達到信息總量的55%,可以這麼說,我們每天都在對外展示自己的表情也在接收別人的表情,那麼表情是什麼呢?

面部表情是面部肌肉的一個或多個動作或狀態的結果。這些運動表達了個體對觀察者的情緒狀態。面部表情是非語言交際的一種形式。它是表達人類之間的社會信息的主要手段,不過也發生在大多數其他哺乳動物和其他一些動物物種中。

人類的面部表情至少有21種,除了常見的高興、吃驚、悲傷、憤怒、厭惡和恐懼6種,還有驚喜(高興+吃驚)、悲憤(悲傷+憤怒)等15種可被區分的複合表情。

表情是人類及其他動物從身體外觀投射出的情緒指標,多數指面部肌肉及五官形成的狀態,如笑容、怒目等。也包括身體整體表達出的身體語言。一些表情可以準確解釋,甚至在不同物種成員之間,憤怒和極端滿足是主要的例子。然而,一些表情則難以解釋,甚至在熟悉的個體之間,厭惡和恐懼是主要的例子。一般來說,面部各個器官是一個有機整體,協調一致地表達出同一種情感。面部表情是人體(形體)語言的一部分,是一種生理及心理的反應,通常用於傳遞情感。

1.2 表情的研究

面部表情的研究始於19世紀,1872年,達爾文在他著名的論著《人類和動物的表情(The Expression of the Emotions in Animals and Man,1872)》中就闡述了人的面部表情和動物的面部表情之間的聯繫和區別。

1971年,Ekman和Friesen對現代人臉表情識別做了開創性的工作,他們研究了人類的6種基本表情(即高興、悲傷、驚訝、恐懼、憤怒、厭惡),確定識別對象的類別,並系統地建立了有上千幅不同表情的人臉表情圖像數據庫,細緻的描述了每一種表情所對應的面部變化,包括眉毛、眼睛、眼瞼、嘴脣等等是如何變化的。

1978年,Suwa等人對一段人臉視頻動畫進行了人臉表情識別的最初嘗試,提出了在圖像序列中進行面部表情自動分析。

20世紀90年代開始,由K.Mase和A.Pentland使用光流來判斷肌肉運動的主要方向,使用提出的光流法進行面部表情識別之後,自動面部表情識別進入了新的時期。

1.3 微表情

隨着對錶情研究的深入,學者們將目光聚焦到一種更加細微的表情的研究,即微表情的研究,那麼什麼是微表情呢?

微表情是心理學名詞,是一種人類在試圖隱藏某種情感時無意識做出的、短暫的面部表情。他們對應着七種世界通用的情感:厭惡、憤怒、恐懼、悲傷、快樂、驚訝和輕蔑。微表情的持續時間僅爲1/25秒至1/5秒,表達的是一個人試圖壓抑與隱藏的真正情感。雖然一個下意識的表情可能只持續一瞬間,但有時表達相反的情緒。

微表情具有巨大的商業價值和社會意義。

在美國,針對微表情的研究已經應用到國家安全、司法系統、醫學臨牀和政治選舉等領域。在國家安全領域,有些訓練有素的恐怖分子等危險人物可能輕易就通過測謊儀的檢測,但是通過微表情,一般就可以發現他們虛假表面下的真實表情,並且因爲微表情的這種特點,它在司法系統和醫學臨牀上也有着較好的應用。電影製片人導演或者廣告製作人等也可以通過人羣抽樣採集的方法對他們觀看宣傳片或者廣告時候的微表情來預測宣傳片或者廣告的收益如何。

總之,隨着科技的進步和心理學的不斷髮展,對面部表情的研究將會越來越深入,內容也會越來越豐富,應用也將越來越廣泛。

2表情識別的應用

2.1 在線API

(1) Microsoft Azure

該API包括人臉驗證、面部檢測、以及表情識別等幾部分。對於人臉API已集成的表情識別功能,可針對圖像上所有面部的一系列表情(如氣憤、蔑視、厭惡、恐懼、高興、沒有情緒、悲傷和驚訝)返回置信度,通過JSON返回識別結果。可以認爲這些情感跨越了文化界限,通常由特定的面部表情傳達。

鏈接:
https://azure.microsoft.com/zh-cn/services/cognitive-services/face/

圖2.1爲人臉API識別結果:

圖2.1 Microsoft Azure人臉API表情識別實際操作示意圖

(2) Baidu AI開放平臺(配備微信小程序)

該API可以檢測圖中的人臉,併爲人臉標記出邊框。檢測出人臉後,可對人臉進行分析,獲得眼、口、鼻輪廓等72個關鍵點定位準確識別多種人臉屬性,如性別,年齡,表情等信息。該技術可適應大角度側臉,遮擋,模糊,表情變化等各種實際環境。

鏈接:https://ai.baidu.com/tech/face/detect

圖2.2爲該API的功能演示。

圖2.2 Baidu AI開放平臺人臉API的功能演示

(3) 騰訊優圖AI開放平臺(配備微信小程序)

該API對於任意一幅給定的圖像,採用智能策略對其進行搜索以確定其中是否含有人臉,如果是則返回人臉的位置、大小和屬性分析結果。當前支持的人臉屬性有:性別、表情(中性、微笑、大笑)、年齡(誤差估計小於5歲)、是否佩戴眼鏡(普通眼鏡、墨鏡)、是否佩戴帽子、是否佩戴口罩。目前優圖人臉檢測和分析不僅成熟應用於圖片內的人臉顏值分析,檢測到人臉時啓動相機等娛樂場景,還可通過對圖像或視頻中的人臉進行檢測和計數,能夠輕鬆瞭解區域內的人流量,並且可以通過對廣告受衆羣體的人臉檢測和分析,瞭解人羣的性別、年齡等屬性和分佈,據此進行更精準匹配的廣告投放。

鏈接:http://youtu.qq.com/#/face-detect

圖2.3爲該API的功能演示。

圖2.3 騰訊優圖AI開放平臺人臉API的功能演示

2.2 APP

(1) Polygram

微信已經成爲了我們生活中必不可少的一部分,社交、轉賬、支付、購物均可以其爲載體,刷微信、刷朋友圈、發段子、鬥圖成爲了我們空閒時間的日常,各種微信表情包成爲一大主流。Polygram與以往的社交軟件的方式不同,是一款基於人臉識別的表情包爲主要特色的社交軟件,加持人臉識別與神經網絡技術,它可以使用用戶的臉部表情來生成一個emoji。在這裏,用戶可以通過人臉識別技術,搜索發送相應表情。Polygram是一個人工智能動力社會網絡,可以理解人臉表情。它以基於人臉識別的表情包爲主要特色,即能夠利用人臉識別技術,對面部的真實表情進行檢測,從而搜索到相應的表情,併發送該表情。當用戶在Polygram上發佈圖片或視頻時,它非常聰明的是可以使用面部識別技術和手機攝像頭,自動捕獲用戶在社交平臺上瀏覽朋友分享的照片、文字、視頻等信息時,臉部出現的真實表情,您將瞭解您的好友對他們的感受。這是通過模仿面部表情的現場表情符號來完成的,並允許用戶對自己的臉部做出反應。

圖2.4 用戶在使用Polygram

(2) 落網emo

emo,是一款可以識別情緒的音樂APP,我們總是在掏出手機打開音樂播放器之後,不停的在播放列表中找歌,卻難以在存了幾百首歌的播放列表中找到此刻想聽的,這並非出於執念,只是因爲心情。快樂的時候,想聽跳躍的歌;悲傷的時候,要放低沉的曲兒;激動的時候,需要激昂的調……每個人都有心情不同的時候,每個人都需要不同的音樂解藥。emo因此而生,解決聽歌煩惱,在最適合的時候播放最適合的歌。

在emo面前的你,會是最誠實的你,不必掩藏你的心情,愉快便是愉快,悲傷即是悲傷。emo會通過前置攝像頭掃描你的臉,推算出你當下的心情狀態,你會驚訝於它的準確度之高,而且,不僅是愉快悲傷,它還能“看”出來其它心情如:平靜、困惑、驚訝、憤怒等等。

推算心情不是唯一讓人驚歎的地方,在推算出你的心情狀態之後,emo還會貼心地爲你推送音樂。emo擁有龐大優質的音樂後臺曲庫,推送的每一首歌都由人工打上心情標籤,每一首歌都是我們爲你精心挑選的,符合你現時心情的。簡單來說emo是一個音樂播放器,而臉部識別技術的嵌入讓這個播放器又沒那麼簡單——emo可以通過掃描用戶的臉部表情,判斷用戶的情緒,推薦給用戶相應的音樂。產品的立意是希望用戶在每一刻都能聽到想聽的符合心情的歌曲。總體而言,該App也跳出了一般意義上的播放器,是一款十分有意思的產品,期待優化的更好一些。其他三大主流音樂播放器或許未來也可以借鑑一下。

2.3 分析總結

目前,各家大廠的API都已經非常成熟,同時由於微信小程序的興起,很多APP的功能都可以遷移至小程序完成,通過廣泛的調研,可以發現目前做人臉識別的產品較多,而聚焦於表情識別的並不多,或者僅僅是簡單的給出是否微笑等簡單的表情提示,大部分並沒有將其與產品進行一個有機的結合。在調研過程中,個人覺得emo是一個很好的點子,不過很可惜並沒有得到很好的推廣。

目前,僅針對人臉識別的技術相對成熟,表情識別還有很大的市場,接下來需要做的是將表情識別運用到實際場景中,將其與現實需求進行良好結合。例如在遊戲的製作上面,可以根據人類情感做出實時反映,增強玩家沉浸感;在遠程教育方面,可以根據學生表情調整授課進度、授課方法等;在安全駕駛方面,可以根據司機表情,判斷司機駕駛狀態,避免事故發生。在公共安全監控方面,可以根據表情判斷是否有異常情緒,預防犯罪;在製作廣告片的時候,製作者往往都會頭疼一個問題:該在什麼時候插入商標logo、該在什麼時候跳出產品圖片才能讓觀衆對這個品牌、這個產品有更深的印象?表情識別就可以幫助廣告製作者解決這一令人頭疼的問題。製作者只需要在廣告片完成後,邀請一部分人來試看這個廣告片,並在試看過程中使用表情識別系統測試觀看者的情緒變化,找到他們情緒波動最大的段落,這就是最佳的logo插入段落。與其類似的,可以幫助廣告製作者找出最佳的logo植入點,還可以幫助電影製作方尋找出一部電影中最吸引人的部分來製作電影的預告片,以確保預告片足夠吸引人,保證有更多的人在看完預告片後願意走進電影院觀看“正片”。表情識別是一個很有發展前景的方向,將其與日常所需緊密聯繫是這類產品需要考量的重要因素,而不單單只是給一個檢測結果而已,或許這個未來的發展方向之一。

3表情常用開源數據庫

(1) KDEF與AKDEF(karolinska directed emotional faces)數據集

鏈接:http://www.emotionlab.se/kdef/

這個數據集最初是被開發用於心理和醫學研究目的。它主要用於知覺,注意,情緒,記憶等實驗。在創建數據集的過程中,特意使用比較均勻,柔和的光照,被採集者身穿統一的T恤顏色。這個數據集,包含70個人,35個男性,35個女性,年齡在20至30歲之間。沒有鬍鬚,耳環或眼鏡,且沒有明顯的化妝。7種不同的表情,每個表情有5個角度。總共4900張彩色圖。尺寸爲562*762像素。圖3.1是該數據集中一個微笑的示例。

圖3.1 KDEF與AKDEF Dataset中微笑示例

(2) RaFD數據集

鏈接:http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main
該數據集是Radboud大學Nijmegen行爲科學研究所整理的,這是一個高質量的臉部數據庫,總共包含67個模特:20名白人男性成年人,19名白人女性成年人,4個白人男孩,6個白人女孩,18名摩洛哥男性成年人。總共8040張圖,包含8種表情,即憤怒,厭惡,恐懼,快樂,悲傷,驚奇,蔑視和中立。每一個表情,包含3個不同的注視方向,且使用5個相機從不同的角度同時拍攝的,圖3.2是該數據集中5個方向的一個示例,圖3.3是該數據集中一個表情的示例。

圖3.2 RaFD Dataset中5個方向的一個示例

圖3.3 RaFD Dataset中一個表情示例

(3) Fer2013數據集

該數據集,包含共26190張48*48灰度圖,圖片的分辨率比較低,共6種表情。分別爲0 anger生氣、1 disgust 厭惡、2 fear 恐懼、3 happy 開心、4 sad 傷心、5 surprised 驚訝、6 normal 中性。圖3.4爲Fer2013數據集的部分數據。

圖3.4 Fer2013 Database的部分數據

(4) CelebFaces Attributes Dataset (CelebA)數據集

鏈接:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CelebA是商湯科技的一個用於研究人臉屬性的數據集,一個包含超過200K名人圖像的大型人臉屬性數據集,每個數據集都有40個屬性註釋。該數據集中的圖像涵蓋了大型姿態變化和複雜背景。CelebA的多樣非常好,有約10萬張帶微笑屬性的數據,圖3.5是該數據集中一些微笑的示例。

圖3.5 CelebA Dataset中一些微笑示例

(5) Surveillance Cameras Face Database

(SCface)
鏈接:http://www.scface.org/
SCface是人臉靜態圖像的數據庫。圖像是在不受控制的室內環境中使用五種不同品質的視頻監控攝像機拍攝的。數據庫包含130個主題的4160靜態圖像(在可見和紅外光譜中)。圖3.6是該數據集中不同姿勢的一些示例。

圖3.6 SCface Database中不同姿勢的一些示例

(6) Japanese Female Facial Expression (JAFFE) Database

該數據庫包含由10名日本女性模特組成的7幅面部表情(6個基本面部表情+1箇中性)的213幅圖像。每個圖像被60個日語科目評爲6個情感形容詞。圖3.7是該數據集中的部分數據。

圖3.7 JAFFE中的部分數據

除上述介紹到的開源數據集外還有許多關於表情的開源數據集,總之需要多去搜索總結,使用這些開源數據集,我們可以省去很多構造數據的時間,也便於我們訓練出一個魯棒性比較好的模型。

4人臉表情識別研究方法

4.1 表情識別系統

人臉表情識別系統如圖4.1所示,主要由人臉圖像的獲取、人臉檢測、特徵提取、特徵分類四部分組成。

圖4.1 人臉表情識別系統

由於開源表情數據庫目前已經比較多,圖像獲取難度不大,人臉檢測算法也比較成熟,已經發展成爲一個獨立的研究方向,因此人臉表情識別的研究主要體現在系統的後面兩個步驟:特徵提取和特徵分類上,下面將從傳統研究方法和深度學習研究方法對以上兩個步驟進行闡述。

4.2 傳統研究方法

4.2.1 特徵提取

表情特徵提取主要採用數學方法,依靠計算機技術對人臉表情的數字圖像進行數據的組織和處理,提取表情特徵,去除非表情噪聲的方法。在某些情況下,特徵提取算法提取了圖像的主要特徵,客觀上降低了圖像的維數,因此這些特徵提取算法也具有降維的作用。

人臉表情的產生是一個很複雜的過程,如果不考慮心理和環境因素,呈現在觀察者面前的就是單純的肌肉運動,以及由此帶來的面部形體和紋理的變化。靜態圖像呈現的是表情發生時單幅圖像的表情狀態,動態圖像呈現的是表情在多幅圖像之間的運動過程。因此根據表情發生時的狀態和處理對象來區分,表情特徵提取算法大體分爲基於靜態圖像的特徵提取方法和基於動態圖像的特徵提取方法。其中基於靜態圖像的特徵提取算法可分爲整體法和局部法,基於動態圖像的特徵提取算法又分爲光流法、模型法和幾何法。

基於靜態圖像的特徵提取方法:

(1)整體法
人臉表情依靠肌肉的運動來體現。人臉表情靜態圖像直觀地顯示了表情發生時人臉肌肉運動所產生的面部形體和紋理的變化。從整體上看,這種變化造成了面部器官的明顯形變,會對人臉圖像的全局信息帶來影響,因此出現了從整體角度考慮表情特徵的人臉表情識別算法。

整體法中的經典算法包括主元分析法(PCA)、獨立分量分析法(ICA)和線性判別分析法(LDA)。研究者針對於此也做了大量的工作,文獻【1-3】採用FastICA算法提取表情特徵,該方法不但繼承了ICA算法能夠提取像素間隱藏信息的特點,而且可以通過迭代,快速地完成對錶情特徵的分離。文獻【4】提出了支持向量鑑別分析(SVDA)算法,該算法以Fisher線性判別分析和支持向量機基礎,能夠在小樣本數據情況下,使表情數據具有最大的類間分離性,而且不需要構建SVM算法所需要的決策函數。實驗證明了該算法的識別率高於PCA和LDA。文獻【5】依靠二維離散餘弦變換,通過頻域空間對人臉圖像進行映射,結合神經網絡實現對錶情特徵的分類。

(2)局部法
靜態圖像上的人臉表情不僅有整體的變化,也存在局部的變化。面部肌肉的紋理、皺褶等局部形變所蘊含的信息,有助於精確地判斷表情的屬性。局部法的經典方法是Gabor小波法和LBP算子法。文獻【6】以Gabor小波等多種特徵提取算法爲手段,結合新的分類器對靜態圖像展開實驗。文獻【7】首先人工標記了34個人臉特徵點,然後將特徵點的Gabor小波係數表示成標記圖向量,最後計算標記圖向量和表情語義向量之間的KCCA係數,以此實現對錶情的分類。文獻【8】提出了CBP算子法,通過比較環形鄰域的近鄰點對,降低了直方圖的維數。針對符號函數的修改,又增強了算法的抗噪性,使CBP算子法取得了較高的識別率。

基於動態圖像的特徵提取方法:

動態圖像與靜態圖像的不同之處在於:動態圖像反映了人臉表情發生的過程。因此動態圖像的表情特徵主要表現在人臉的持續形變和麪部不同區域的肌肉運動上。目前基於動態圖像的特徵提取方法主要分爲光流法、模型法和幾何法。

(1)光流法
光流法是反映動態圖像中不同幀之間相應物體灰度變化的方法。早期的人臉表情識別算法多采用光流法提取動態圖像的表情特徵,這主要在於光流法具有突出人臉形變、反映人臉運動趨勢的優點。因此該算法依舊是傳統方法中來研究動態圖像表情識別的重要方法。文獻【9】首先採用連續幀之間的光流場和梯度場,分別表示圖像的時空變化,實現每幀人臉圖像的表情區域跟蹤;然後通過特徵區域運動方向的變化,表示人臉肌肉的運動,進而對應不同的表情。

(2)模型法
人臉表情識別中的模型法是指對動態圖像的表情信息進行參數化描述的統計方法。常用算法主要包括主動形狀模型法(ASM)和主動外觀模型法(AAM),兩種算法都可分爲形狀模型和主觀模型兩部分。就表觀模型而言,ASM反映的是圖像的局部紋理信息,而AAM反映的是圖像的全局紋理信息。文獻【10】提出了基於ASM的三維人臉特徵跟蹤方法,該方法對人臉81個特徵點進行跟蹤建模,實現了對部分複合動作單元的識別。文獻【11】藉助圖像的地形特徵模型來識別人臉動作和表情;利用AAM和人工標記的方法跟蹤人臉特徵點,並按照特徵點取得人臉表情區域;通過計算人臉表情區域的地形直方圖來獲得地形特徵,從而實現表情識別。文獻【12】提出了基於二維表觀特徵和三維形狀特徵的AAM算法,在人臉位置發生偏移的環境下,實現了對錶情特徵的提取。

(3)幾何法
在表情特徵提取方法中,研究者考慮到表情的產生與表達在很大程度上是依靠面部器官的變化來反映的。人臉的主要器官及其褶皺部分都會成爲表情特徵集中的區域。因此在面部器官區域標記特徵點,計算特徵點之間的距離和特徵點所在曲線的曲率,就成爲了採用幾何形式提取人臉表情的方法。文獻【13】使用形變網格對不同表情的人臉進行網格化表示,將第一幀與該序列表情最大幀之間的網格節點座標變化作爲幾何特徵,實現對錶情的識別。

4.2.2 特徵分類

特徵分類的目的是判斷特徵所對應的表情類別。在人臉表情識別中,表情的類別分爲兩部分:基本表情和動作單元。前者一般適用於所有的處理對象,後者主要適用於動態圖像,可以將主要的特徵分類方法分爲基於貝葉斯網絡的分類方法和基於距離度量的分類方法。

(1)基於貝葉斯網絡的分類方法
貝葉斯網絡是以貝葉斯公式爲基礎、基於概率推理的圖形化網絡。從人臉表情識別的角度出發,概率推理的作用就是從已知表情信息中推斷出未知表情的概率信息的過程。基於貝葉斯網絡的方法包括各種貝葉斯網絡分類算法和隱馬爾科夫模型(HMM)算法。文獻【14】研究者 分別採用了樸素貝葉斯(NB)分類器、樹增強器(TAN)和HMM實現表情特徵分類。

(2)基於距離度量的分類方法
基於距離度量的分類方法是通過計算樣本之間的距離來實現表情分類的。代表算法有近鄰法和SVM算法。近鄰法是比較未知樣本x與所有已知類別的樣本之間的歐式距離,通過距離的遠近來決策x與已知樣本是否同類;SVM算法則是通過優化目標函數,尋找到使不同類別樣本之間距離最大的分類超平面。文獻【8】採用了最近鄰法對錶情特徵進行分類,並指出最近鄰法的不足之處在於分類正確率的大小依賴於待分類樣本的數量。【15,16】分別從各自角度提出了對SVM的改進,前者將k近鄰法與SVM結合起來,把近鄰信息集成到SVM的構建中,提出了局部SVM分類器;後者提出的CSVMT模型將SVM和樹型模塊結合起來,以較低的算法複雜度解決了分類子問題。

4.3 深度學習方法

上述均爲傳統研究方法的一些介紹,下文主要講述如何將深度學習應用到表情識別裏,並將以幾篇文章爲例來詳細介紹一下現在深度學習方法的研究方法和思路。

與傳統方法特徵提取不同,之所以採用深度學習的方法,是因爲深度學習中的網絡(尤其是CNN)對圖像具有較好的提取特徵的能力,從而避免了人工提取特徵的繁瑣,人臉的人工特徵包括常用的68個Facial landmarks等其他的特徵,而深度學習除了預測外,往往還扮演着特徵工程的角色,從而省去了人工提取特徵的步驟。下文首先介紹深度學習中常用的網絡類型,然後介紹通過預訓練的網絡對圖像進行特徵提取,以及對預訓練的網絡採用自己的數據進行微調的Fine-Tunning。

如果將深度學習中常用的網絡層CNN,RNN,Fully-Connect等層組合成網絡,將會產生多種選擇,然而這些網絡性能的好與壞需要更多地探討,經過很多研究者的一系列實踐,很多網絡模型已經具備很多的性能,如ImgeNet比賽中提出模型:AlexNet,GoogleNet(Inception), VGG,ResNet等。這些網絡已經經過了ImageNet這個強大數據集的考驗,因此在圖像分類問題中也常被採用。

對於網絡的結構,往往是先通過若干層CNN進行圖像特徵的提取,然後通過全連接層進行非線性分類,這時的全連接層就類似與MLP,只是還加入了dropout等機制防止過擬合等,最後一層有幾個分類就連接幾個神經元,並且通過softmax變換得到樣本屬於各個分類的概率分佈。

關於人臉表情識別的討論一直在繼續,很多學者團隊都聚焦於此。文獻【17】提出了用於註釋自然情緒面部表情的一百萬個圖像的大型數據庫(即,從因特網下載的面部圖像)。首先,證明這個新提出的算法可以跨數據庫可靠地識別AU及其強度。根據調研,這是第一個在多個數據庫中識別AU及其強度的高精度結果的已發佈算法。算法可以實時運行(> 30張圖像/秒),允許它處理大量圖像和視頻序列。其次,使用WordNet從互聯網下載1,000,000張面部表情圖像以及相關的情感關鍵詞。然後通過我們的算法用AU,AU強度和情感類別自動註釋這些圖像。可以得到一個非常有用的數據庫,可以使用語義描述輕鬆查詢計算機視覺,情感計算,社會和認知心理學和神經科學中的應用程序。

文獻【18】提出了一種深度神經體系結構,它通過在初始階段結合學習的局部和全局特徵來解決這兩個問題,並在類之間複製消息傳遞算法,類似於後期階段的圖形模型推理方法。結果表明,通過增加對端到端訓練模型的監督,在現有水平的基礎上我們分別在BP4D和DISFA數據集上提高了5.3%和8.2%的技術水平。

5總結

FER目前的關注點轉移到具有挑戰性的真實場景條件下,利用深度學習技術來解決如光照變化、遮擋、非正面頭部姿勢等問題。

需要考慮的另一個主要問題是,儘管目前表情識別技術已經被廣泛研究,但是我們所定義的表情只涵蓋了特定種類的一小部分,主要是面部表情,而實際上人類還有很多其他的表情。

表情的研究相對於顏值年齡等要難得多,應用也要廣泛的多,相信這幾年會不斷出現有意思的應用。

參考文獻:
[1] 何良華. 人臉表情識別中若干關鍵技術的研究[D]. 東南大學, 2005.

[2] 周書仁, 樑昔明, 朱燦,等. 基於ICA與HMM的表情識別[J]. 中國圖象圖形學報, 2008, 13(12):2321-2328.

[3] 周書仁. 人臉表情識別算法分析與研究[D]. 中南大學, 2009.

[4] 應自爐, 唐京海, 李景文,等. 支持向量鑑別分析及在人臉表情識別中的應用[J]. 電子學報, 2008, 36(4):725-730.

[5] Khorasani K. Facial expression recognition using constructive neural networks[C]// Signal Processing, Sensor Fusion, and Target Recognition X. Signal Processing, Sensor Fusion, and Target Recognition X, 2001:1588 - 1595.

[6] Kyperountas M, Tefas A, Pitas I. Salient feature and reliable classifier selection for facial expression classification[J]. Pattern Recognition, 2010, 43(3):972-986.

[7] Zheng W, Zhou X, Zou C, et al. Facial expression recognition using kernel canonical correlation analysis (KCCA).[J]. IEEE Transactions on Neural Networks, 2006, 17(1):233.

[8] 付曉峯. 基於二元模式的人臉識別與表情識別研究[D]. 浙江大學, 2008.

[9] Yacoob Y, Davis L S. Recognizing Human Facial Expressions From Long Image Sequences Using Optical Flow[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 1996, 18(6):636-642.

[10] Tsalakanidou F, Malassiotis S. Real-time 2D+3D facial action and expression recognition[J]. Pattern Recognition, 2010, 43(5):1763-1775.

[11] Wang J, Yin L. Static topographic modeling for facial expression recognition and analysis[J]. Computer Vision & Image Understanding, 2007, 108(1):19-34.

[12] Sung J, Kim D. Pose-Robust Facial Expression Recognition Using View-Based 2D $+$ 3D AAM[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2008, 38(4):852-866.

[13] Kotsia I, Pitas I. Facial Expression Recognition in Image Sequences Using Geometric Deformation Features and Support Vector Machines[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2007, 16(1):172.

[14] Cohen I, Sebe N, Garg A, et al. Facial expression recognition from video sequences: temporal and static modeling[J]. Computer Vision & Image Understanding, 2003, 91(1–2):160-187.

[15] 徐文暉, 孫正興. 面向視頻序列表情分類的LSVM算法[J]. 計算機輔助設計與圖形學學報, 2009, 21(4):000542-553.

[16] 徐琴珍, 章品正, 裴文江,等. 基於混淆交叉支撐向量機樹的自動面部表情分類方法[J]. 中國圖象圖形學報, 2008, 13(7):1329-1334.

[17] Benitez-Quiroz C F, Srinivasan R, Martinez A M. EmotioNet: An Accurate, Real-Time Algorithm for the Automatic Annotation of a Million Facial Expressions in the Wild[C]// Computer Vision and Pattern Recognition. IEEE, 2016:5562-5570.

[18] Benitezquiroz C F, Wang Y, Martinez A M. Recognition of Action Units in the Wild with Deep Nets and a New Global-Local Loss[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:3990-3999.

作者介紹

言有三,真名龍鵬,曾先後就職於奇虎360AI研究院、陌陌深度學習實驗室,6年多計算機視覺從業經驗,擁有豐富的傳統圖像算法和深度學習圖像項目經驗,擁有技術公衆號《有三AI》,著有書籍《深度學習之圖像識別:核心技術與案例實戰》;李振東,北京郵電大學碩士在讀,計算機視覺方向。

原文鏈接

https://mp.weixin.qq.com/s/Ht8kFTgIWASusfSUQqoaJA

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章