北郵團隊研究指出人臉識別算法存在偏差,微軟、亞馬遜、百度、曠視紛紛中招

種族偏差是生物特徵識別中的一個重要問題,但在人臉識別領域還沒有得到深入的研究。北京郵電大學鄧偉洪教授團隊的研究揭示了當前人臉識別算法中普遍存在跨國家/地區識別偏差問題,並構建了評價偏差程度的人臉數據集 RFW(Racial Faces in-the-Wild

在 RFW 數據庫的基礎上,研究人員驗證了微軟、亞馬遜、百度、曠視的商業 API 以及學術界最先進的4個算法,發現偏差確實存在。爲了探究這種偏差是否是由訓練數據的分佈不平衡引起的,研究人員收集了一個涵蓋全球各地區人類信息的訓練數據庫,最終發現偏差的發生受到數據和算法兩方面影響。研究人員提出了減小識別偏差的信息最大化自適應神經網絡IMAN,以改進對目標域的識別能力。在RFW數據庫上進行的大量實驗表明,IMAN學習的特徵具有在不同種族和不同數據庫之間的泛化能力。該研究結果已經發表在國際計算機視覺大會ICCV2019上,本文爲AI前線第99篇論文導讀,我們將對這項研究成果進行詳細解讀。

1 背景介紹

人臉識別中的種族偏見

深度卷積神經網絡的出現極大地推動了人臉識別的發展。然而,以往的研究中一直忽略了種族偏差的問題,而它明顯降低了現實人臉識別系統的性能。特別對於非白種人來說,人臉識別系統的錯誤率很高。儘管有幾項非深度人臉識別算法針對種族偏差做出了改進,但在深度學習時代,這一領域仍然是空白的,因爲現有的種族偏見數據庫由於其規模小和條件限制,不再適用於深度人臉識別算法;而常用的深度數據庫測試數據庫則不具有明顯的種族多樣性。

表1:常用訓練測試數據庫中不同人種所佔比例

爲了促進對這一問題的研究,作者構建了一個新的自然場景下的種族人臉(RFW)數據庫,來公平地衡量深度人臉識別中的種族偏差。

圖1:RFW數據庫的示例和平均臉。從上到下依次爲:白種人、印度人、亞洲人、非洲人。

基於在RFW上的實驗,作者發現商業API和學術界最先進的算法都確實存在種族偏差:非洲人臉識別的錯誤率大約是白種人(高加索人)的兩倍。

表2:深度人臉識別系統的種族偏差

爲了研究由訓練數據引起的偏差,作者還收集了一個種族平衡訓練數據庫,並驗證了種族偏差在數據和算法兩個方面都存在:即使在平衡的數據庫上訓練,一些特定的種族還是更難識別;爲了消除種族偏差,需要對算法進行進一步的研究。

深度無監督域適應UDA

深度無監督域適應利用相關源域中的標記數據在目標域中執行新任務。然而,目前適用UDA的研究僅限於目標分類,很少有人將UDA用於人臉識別任務。作者受到GAN中Inception Score的啓發,引入互信息作爲域自適應的正則化項,提出了一種新的信息最大化適應網絡(IMAN),以無監督的方式解決人臉識別中的種族偏差問題。

實驗結果表明,IMAN能將識別知識從高加索(源)域遷移到其他種族(目標)域,其表現要優於其他無監督域自適應(Unsupervised domain adaption, UDA)方法。此外,IMAN也有助於通用的深度模型適應特定的數據庫。

這篇論文的貢獻有三個方面:

(1)構建併發布了一個新的RFW數據集,可用於種族偏差的研究。

(2)綜合性實驗驗證了深度人臉識別算法中種族偏差的存在和原因。

(3)提出了新的IMAN網絡解決種族偏差問題。

2 RFW數據庫(Racial Faces in-the-Wild)

作者構建了包含四個測試子集的RFW數據庫,即高加索人、亞洲人、印度人和非洲人。每一個子集包含約10K張人臉圖像,屬於3K個不同身份,用於人臉驗證。所有這些圖像都經過了仔細的數據清洗,排除了RFW和常用訓練數據集之間的重疊身份。

對於性能評估,作者建議同時使用ROC曲線和類LFW協議。ROC曲線旨在報告一個全面的性能,在3K個身份所有圖像對(約14K個正樣本和50M負樣本)上評估算法。類LFW協議有助於在6K對圖像上對算法進行簡單而快速的比較。此外,作者選擇了“困難”對,以避免容易出現性能飽和。

在RFW中,每個種族的圖像都是從MS-Celeb-1M中隨機採集的,沒有任何偏向,因此它們能夠公平地衡量種族偏差。並且,在不同種族中,人們的姿態、年齡和性別分佈是相似的。下圖給出了由Face++測量的詳細分佈。從這些數字可以看出,不同種族之間沒有顯著差異。

圖2:RFW數據

此外,(e)和(f)顯示了3K困難樣本對的姿態和年齡差距分佈,這表明所選擇的困難對在不同種族之間也是公平的,並且包含較大的類間差異。

圖3:RFW中的一些困難樣本對

上圖給出了6K樣本對的一些例子,從圖中可以看出,一些樣本甚至對人類來說都是非常具有挑戰性的。

3 信息最大化自適應網絡

在域自適應中,源域是一個標記訓練集,即Ds={xsi,ysi},其中xsi是第i個源樣本,ysi是它的類別標籤,M是源圖像的個數。目標域是一個未標記的訓練集,即Dt={xti},其中xti是第i個目標樣本,N是目標圖像數。兩個域的數據分佈不同,P(Xs,Ys)≠P(Xt,Yt)。算法的目標是學習域之間的深度特徵不變量,並以無監督的方式提高目標圖像(有色人臉)在人臉識別任務中的表現。在人臉識別中,兩個域的身份(類)不重疊,爲人臉識別帶來了不同於其他任務的獨特挑戰。

Pre-adaption:基於聚類僞標籤的預適應

傳統的UDA方法使用源分類器來預測目標域中的僞標籤,網絡可以使用有監督損失進行微調。但是,由於人臉識別中兩個域之間的身份不重疊,這些方法雖然成熟但並不適合。因此,作者在UDA中引入一種聚類算法,爲pre-adaption訓練產生僞標籤。聚類算法的具體步驟如下:

首先,將未標註目標數據Xt輸入網絡,生成深度特徵F(Xt)。然後用深度特徵建立N*N鄰接矩陣,N爲目標域人臉數目,矩陣第(i,j)項爲目標人臉xti和xtj之間的餘弦相似度。

然後,根據鄰接矩陣建立聚類圖G(n,e),節點ni表示第i個目標人臉,邊指示兩個目標人臉的餘弦相似度與參數λ之間的關係:

最後,將連接了至少p個節點的圖像保存爲一個簇(cluster),並獲取這些目標圖像的僞標籤。因此,只獲得部分圖像的僞標籤,具有較高的置信度,以減輕僞標籤樣本帶來的負面影響。然後用Softmax損失對網絡進行預適應。

Discriminant adaption:基於互信息損失的判別適應

雖然預適應(pre-adaption)已經得到了對目標圖像的初步預測,但由於僞標籤的不完善,不足以提高目標域的表現。如何才能充分利用目標圖像,並學習更多的判別表示呢?在初步預測的基礎上,作者提出在沒有標籤信息的情況下進一步優化分類器輸出的分佈。其中一個想法是通過擴大分類器對某一個類的輸出,同時以無監督的方式抑制其他類的輸出,在特徵空間中學習大的決策邊界。與有監督的互信息不同,這裏的MI損失最大化無標籤目標數據Xt和分類器預測Ot之間的互信息。

分類器預測p(Ot|xti)的理想條件分佈應爲[0,0,…,1,…,0],對邊界較大的樣本進行分類比較好。H(Ot|xti)有效地滿足了這一要求,因爲當分類器的預測分佈是均勻時,該熵項是最大化的,反之亦然。然而,在完全無監督學習的情況下,簡單地最小化這個熵將導致更多的決策邊界被移除,使大多數樣本被分配到同一類。因此,作者選擇類別的均勻分佈。分類器預測p(Ot)的邊界分佈估計如下:

最大化Ot的熵可以讓樣本在數據類別上均勻分佈。

在信息論中,X與Y的互信息可以表示爲兩個熵項的差:

如果X之間Y有一個確定的、可逆的函數關係,就能得到最大的互信息。因此,作者將兩個熵項結合,得到數據Xt和預測Ot之間的互信息:

第一項是Ot條件分佈的熵,能夠擴大分類器對某一類別的輸出,並抑制對其他類別的輸出;第二項是Ot邊界分佈的熵,能夠避免大量樣本被分到同一類。N爲目標圖像的數量,Nc爲目標類別的數量。但是沒有真實標籤的情況下如何獲得Nc並保證分類器的預測概率呢?作者利用上一步的聚類僞類標,用聚類中心的數量代替Nc,然後獲得初始預測,保證互信息損失的準確性。

Adaptation network

圖4:IMAN整體結構。步驟1:僞適應,利用聚類算法生成僞類標,獲得在目標域上的初步提升;步驟2:MI適應,利用互信息損失,優化分類器輸出的分佈,學習更大的決策邊界。

如圖4所示,IMAN由共享權重的源CNN和目標CNN組成。最大平均差異(MMD)估計器是一種標準的分佈距離度量,用於衡量域差異,放在網絡高層的自適應層。源CNN的輸入是源標記圖像,而目標CNN的輸入是目標未標記數據。訓練的目標是最小化以下損失函數:

Lm(Xt)爲目標數據Xt的互信息損失,Lc(Xs,Ys)爲源域的分類損失。第二項爲源樣本和目標樣本在第l層的特徵表示的MMD距離。

IMAN的算法總結如下:

源分類損失監督源域的學習進度,MMD最小化域差異以學習域不變表示。此外,在預訓練階段,MMD爲聚類提供了更可靠的目標表示,從而提高了僞標籤的質量。基於聚類的僞標籤可以初步改善目標域的表現,保證網絡對無監督MI損失的預測精度。MI損失可以進一步充分利用所有目標數據,無論它們是否成功聚類,學習更大的決策邊界,提高網絡對目標域的判別能力。

4 實驗結果

種族偏差實驗

作者採用類似ResNet-34架構,在CAISA-Webface數據庫上用Arcface 損失進行訓練,稱爲Arcface(CASIA)模型。Casia Webface由0.5M張名人照片組成,共10K個身份,其中85%的照片是白種人。

種族偏差的存在

作者用Arcface(CASIA)模型提取了RFW中6000樣本對的特徵,並比較了餘弦距離的分佈,如圖©所示。

圖5:(a)測試子集的特徵空間;(b)不同種族的分佈差異;(c)6000樣本對的餘弦距離分佈差異。

高加索人的分佈比其他種族有更明顯的邊緣,從視覺上證明了非高加索人的識別錯誤要高得多。作者在RWF上實驗了學界最先進(SOTA)的算法,Center loss, Sphereface, VGGFace2和ArcFace,以及四個商業識別API,Face++、百度、亞馬遜和微軟。

圖6給出了在所有對上評估的生物測定roc曲線:

圖6:在所有樣本對上測試的ROC曲線

表2:類lfw協議的識別精度
 

首先,所有SOTA算法和API在白種人測試子集上表現最好,其次是印度人,在亞洲和非洲表現最差。這是因爲,在白種人居多的數據上訓練的特徵,會丟棄對識別非白種人面孔有用的信息;第二,東亞公司開發的API對亞洲人的識別效果更好,而西半球開發的API則對白種人的效果更好。

域差異的存在

作者在特徵層面進行了可視化和定量比較。如圖5(a)所示,作者用Arcface(CASIA)模型提取了1.2K圖像的深度特徵,並分別使用t-SNE進行可視化。不同種族的特徵幾乎完全不同。圖5(b)中,作者使用MMD來計算白種人和其他種族的圖像之間的分佈差異。從這些數據中,可以得出相同的結論:白種人與其他種族之間的分佈差異要遠遠大於白種人自身的分佈差異,這說明不同種族人臉之間存在着域差異。

種族偏差的原因

作者構建了一個均衡的數據集Equalizedface,它包含14K個名人的590K張圖像,與CASIA Webface數據庫具有相似的規模,但種族之間基本平衡,每個種族有3.5 K個身份。以Equalizedface爲訓練數據,採用與Arcface(CASIA)模型相同的方法訓練Arcface(Equal)模型,並對比了它們在6000個困難的RFW數據對上的性能:

表3:在不同數據庫上訓練的ResNet-34模型的驗證準確率

與Arcface(CASIA)模型相比,Arcface(Equal)模型對所有種族的識別效果都很好,證明了數據庫中的種族偏差會體現在人臉識別算法中。然而,即使平衡訓練,非白種人的識別效果仍然不如白種人。這可能是由於有色皮膚的人臉更難提取和預處理特徵,特別是在黑暗環境下。此外,作者還對同一種族的7K身份的訓練特定模型,其性能比平衡(每個種族3.5K人)要低一些。作者認爲由於相似的低級特徵,不同種族人臉之間存在着協同關係,因此種族人臉的混合能提高識別能力。

域適應實驗

數據集

根據RFW,作者構造了一個包含四個種族子集的訓練集。如表4所示,一個訓練子集包含約有標記的10K個白種人共500K張圖像,另外三個子集分別包含50K個未標記的非白種人圖像。以白種人爲源域,其他種族爲目標域,對算法進行了評估。

表4:訓練和測試數據集數據

實驗結果

作者進行了三項UDA任務,即將知識從高加索人轉移到印度人、亞洲人和非洲人。作者與兩個將UDA應用於人臉識別任務的方法DDC和DAN進行了對比。

表5和圖7給出了實驗結果。

表5:RFW數據庫上6000個樣本對的驗證準確率。

圖7: Arcface、DAN-A和IMAN-A模型分別在印度、亞洲、非洲子集上的ROC曲線。

首先,沒有域適應的Arcface(CVPR2019,在LFW和Megaface挑戰賽上的SOTA方法),由於種族差距,無法在非白種人身上獲得較好的表現。其次,DDC和DAN方法與Softmax和Arcface模型相比,改進有限,這也證實了目前流行的基於源域和目標域全局對齊的方法不足以進行人臉識別。第三,IMAN-A(使用Arcface損失)和IMAN-S(使用softmax損失)的性能明顯優於其他方法,IMAN-A的性能比Arcface模型提高了3%。在第二階段使用Arcface的IMAN*-A模型在印度、亞洲和非洲的集合中分別獲得了94.15%、91.15%和91.42%的最佳性能。在高加索→非洲任務上,通過交替迭代地執行預適應和MI適應來進一步優化IMAN*-A,並在圖8中顯示出每次迭代的精度。可以看出性能逐漸提高直至收斂。

圖8:IMAN*-A不同迭代的驗證準確率。

消融研究

與現有的UDA方法相比,IMAN有兩個主要貢獻,即僞自適應和MI自適應。爲了評估它們的有效性,作者進行了消融研究。

表6:在RFW6000樣本對上進行的消融研究

在表6中,IMAN 去除僞標籤的結果是較差的,因爲MI損失依賴於僞自適應以保證分類器的準確性,並且僅使用隨機初始化的分類器執行MI自適應是沒有意義的。從IMAN 去除MI自適應的結果可以看出,僞適應比基線平均高出約2.3%,而IMAN比僞適應高出約1.1%。結果表明,算法的兩個組成部分對減少種族偏差均有獨特的作用。

可視化

爲了驗證IMAN學習特徵的可遷移性,在特徵層進行了可視化比較。首先,分別用Arcface模型和IMAN-A模型隨機提取了白種人→非洲人10K源圖像和目標圖像的深層特徵。使用t-SNE將特徵可視化:

圖9:(a)高加索→非洲任務的特徵可視化;(b)源域和目標域的分佈差異

如圖9(a)所示,自適應後,更多的源數據和目標數據開始在特徵空間中混合,使它們之間沒有邊界。其次,作者分別使用Arcface和IMAN-A的特徵計算源域和目標域之間的域差異。圖9(b)顯示出使用IMAN-A特徵的差異遠小於使用Arcface的差異。因此,我們得出結論,IMAN確實有助於最小化域差異,並且MMD有助於對齊兩個域之間的特徵空間。

總結

種族偏差是存在於人臉識別系統的一個問題,一個終極的人臉識別算法應該在不同的種族上有公平的表現。作者邁出了第一步,建立了RFW種族人臉數據庫,以公平地評估種族偏差。通過實驗,作者首先驗證了種族偏差的存在。然後,從域適應的角度對其進行了研究,設計了一種新的IMAN方法來彌補域差異。實驗證明了IMAN在減少種族偏差方面的潛力和有效性。

論文原文鏈接:

https://arxiv.org/abs/1812.00194

論文項目及開放數據集:

http://whdeng.cn/RFW/index.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章