DETECTION OF FAKE IMAGES VIA THE ENSEMBLE OF DEEP REPRESENTATIONS FROM MULTI COLOR SPACES 論文閱讀筆記

DETECTION OF FAKE IMAGES VIA THE ENSEMBLE OF DEEP REPRESENTATIONS FROM MULTI COLOR SPACES 論文閱讀筆記


)

摘要

隨着生成式對抗網絡(GAN)的快速發展,可以很簡單的生成一幅假臉,而且特別逼真,人們用人眼基本上不能發現問題。這樣就可能產生一些社會問題(例如,安全,造假)。這篇文章,作者提出了使用多種顏色空間(YCbCr,Lab,HSV)的殘差信號作爲輸入,然後用CNN提取公共特徵,最後用隨機森林的方法來對真臉和假臉進行分類。並且檢測時,用的是經過處理的假臉,結果有較高的準確率,說明這種方法的魯棒性還是很不錯的。

檢測方法

首先將RGB的圖片轉換爲HSV,YCbCr,Lab的圖像,然後分別提取他們色度分量,也就是H、S,Cb、Cr和a、b。然後用高通濾波處理,要殘差信號。(高通濾波是[0,-1,0;-1,4,-1,0,-1,0])。然後將這三種殘差分別用三種訓練好的CNN去提取特徵,再將提取到的三種特徵融合,最後用隨機森林的方法去分類。該方法的框架圖在下邊。

其中CNN的結構是由四個卷積模塊組成,然後是三個完全連接的層。 最後,softmax層。 每個卷積模塊是通過堆疊一個卷積層,一個激活層和一個最大池層來構造的。 每個模塊的卷積層中輸出特徵圖的數量分別爲64、64、128和128。 在所有卷積層中,卷積核的大小設置爲3×3,步幅爲2×2。 所有最大池內核爲2×2,步幅爲2×2。 零填充應用於每個卷積層,以保持特徵圖的空間分辨率不變。全連接層的神經元的數量是2048,1024,2。
應用交叉熵損失從頭開始優化淺層CNN。 文章分別針對每個色彩空間中色度分量的殘留信號訓練了淺層CNN。 經過訓練後,我們分別獲得了三個針對YCbCr,HSV和Lab顏色空間的經過訓練的淺色CNN作爲特徵提取器。也就是第一段所說的用三種訓練好的CNN去提取特徵。
在這裏插入圖片描述

實驗數據

在數據集方面,真實圖像是在CelebFaces中隨機選取了10000,假的圖像是用PGGAN生成了10000張。然後分成了8500對作爲訓練集1500對做成了測試集。然後對測試集進行了處理,包括高斯模糊,雙邊濾波,中值濾波,伽馬矯正,添加高斯噪聲和改變大小的處理,然後進行測試。

實驗

在實驗中,準確率用作評估標準。在訓練階段,將8500對真實和僞造圖像隨機分爲兩個非重疊子集,比率爲5:1,以進行訓練和驗證。使用Adam方法從頭開始訓練淺層CNN 。最小批量的大小設置爲64。通過實驗將兩個不同的動量值設置爲β1= 0.9和β2= 0.999。初始學習速率設置爲2×10-5,學習速率衰減設置爲1×10-5。根據在驗證集上觀察到的性能,已經針對CNN優化了訓練時期的數量。卷積核中的參數使用均值爲零且σ= 0.01的正態分佈進行初始化,而卷積層的偏差將初始化爲零。在訓練過程之後,將三個訓練後的淺層CNN用作特徵提取器,以獲取不同顏色空間中色度分量的特徵。訓練樣本的檢測特徵(fM)用於訓練RF分類器。對於RF分類器,隨機森林的基本樹數和最大樹深度設置爲150和10。其他參數設置爲默認值。

實驗結果

在這裏插入圖片描述
表中的[5]和[6]作爲對比的方法。其中[5]也是基於真假臉顏色空間的差異對其進行檢測。[6]是提出一種新的網絡結構對真假臉進行檢測。{RCr,Rcb},{RH,RS},{Ra,Rb}分別表示的是用上面提到的三種CNN提取出來的特徵做分類的結果。Fusion+RF就是本文提出的把三個特徵圖合起來再用隨機森林做分類的方法。
從結果上看,準確率還是很高的,很多都達到了百分之百。

問題和思考

  1. 爲什麼只考慮色度,而沒有考慮亮度呢?
    在文章中我沒有找到相關的論述,但是在文章[5]中找到了一些論述。
    在文章[5]中,作者隨機選取了10000張假臉(WGAN-GP)和10000張真臉(CelebA),然後做出了各個顏色分量的直方圖,並且計算出了真圖像和假圖像各個顏色分量的卡方距離(用來衡量真圖像和假圖像之間的差異)。
    在這裏插入圖片描述
    通過直方圖發現,真圖像和假圖像的H、S、Cb、Cr的重疊區域比R、G、B,Y、V是更小的,也就是說真圖像和假圖像的H、S、Cb、Cr的差異是更大的。可以看出色度分量(H、S、Cb、Cr)的卡方距離都大於0.06,而亮度分量(Y、V)的卡方距離都小於0.02。這可以表明從色度分量中提取統計特徵能更加容易的區分真圖像和假圖像。
  2. 爲什麼用高通濾波(殘差)
    原因是假圖像和真實圖像的內容在視覺上非常相似,尤其是在輪廓等低頻表示中。衆所周知,人類對高頻細節不那麼敏感。結果,合理地抑制圖像內容以增強高頻視差。通過使用高通濾波,可以很好地捕獲高頻細節。實際上,從圖像高通濾波殘差中提取特徵已在某些應用中成功使用。
  3. 這篇文章的檢測結果
    這篇文章檢測的只有PGGAN生成的圖像,那如果檢測其他GAN(例如WGAN)生成的圖像的時候還會有這麼高的準確率嗎。也就是跨庫性能怎麼樣。我沒有復現測試,所以不知道答案。

文獻

[5]. Haodong Li, Bin Li, Shunquan Tan, and Jiwu Huang, “Detection of deep network generated images using disparities in color components,” arXiv preprint arXiv:1808.07276, 2018.
[6]. Huaxiao Mo, Bolin Chen, and Weiqi Luo, “Fake faces identification via convolutional neural network,” in Proceedings of the 6th ACM Workshop on Information Hiding and Multimedia Security. ACM, 2018, pp. 43–47.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章