【CVPR2020】CNN-generated images are surprisingly easy to spot... for now(假圖檢測/CNN合成圖像的檢測/圖像取證)

CVPR2020 ORAL。這篇論文的思路很簡單,就是涉及到的數據收集和用到的GAN太多了,一般人可能都沒精力去搞。簡要概括,實驗量大,效果好,抓人眼球哈哈。這篇論文涉及到的GAN真的好多....從頭到尾的翻譯還是很少做的,但是值得,要不老忘。各位同學私人轉載的話,註明我的博客地址就好啦。

論文原文:https://arxiv.org/abs/1912.11035

論文源碼:https://github.com/peterwang512/CNNDetection (目前Github上是沒有發佈訓練代碼的)

摘要

        在這項工作中,我們提出這樣的疑問:是否有可能創建一個“通用”檢測器,不論使用什麼結構的CNN或哪種數據集,通用檢測器都能區分真實圖像和CNN生成的圖像。爲了測試這一點,我們收集了由11種不同的基於CNN的圖像生成器模型生成的假圖數據集集合,這些被選擇的模型包含了當今最常用的那些(ProGAN,StyleGAN,Big-GAN,CycleGAN,StarGAN, GauGAN,DeepFakes,級聯精煉網絡,隱式最大似然估計,二階注意力超分辨率,seeing-in-the-dark)。我們證明,經過精心的預處理和後處理以及數據增強,僅在一個特定的CNN生成器(Pro-GAN)上進行訓練的標準圖像分類器就可以令人驚訝地將其很好地推廣到未知的架構,數據集和訓練方法(包括剛剛發佈的StyleGAN2 [22])。我們的發現表明,當今CNN生成的圖像存在一些共同的系統缺陷,從而阻止了它們實現逼真的圖像合成的可能性。

介紹

        隨着深度圖像合成技術(例如對抗性網絡(GAN))的最新快速發展,引起了公衆的廣泛關注和擔憂,人們擔心我們正在進入一個無法分辨出哪些圖像是真實圖像哪些圖像是合成圖像的時代[15]。這個問題已開始在全球政治中發揮重要作用,比如反對派聲稱Gabon總統的視頻是僞造的,這是導致政變失敗的一個因素。許多關注點都針對特定的修改技術,例如“ deepfake”式面部替換[3]和超高像素逼真的合成人像[21]。但是,這些方法僅代表了通過卷積神經網絡(CNN)進行圖像合成這一廣泛技術中的兩個實例。我們在這項工作中的目標是找到一種用於檢測CNN生成的圖像的通用圖像取證方法。
        檢測圖像是否由特定的合成技術生成是相對簡單的——只需在包括真實圖像和通過相關技術合成的圖像數據集上訓練分類器即可。但是,這種方法很可能會與圖像生成中使用的數據集(例如人臉)相關聯,並且由於數據集偏差[40],可能無法泛化到新數據集上(例如汽車)。更糟糕的是,隨着生成方法的發展,在原有方法上進行訓練的檢測器可能很快會失效。

        因此,很自然地要問,現今CNN生成的圖像是否包含共同的僞像,例如某種可檢測的CNN指紋,這將使分類器能夠泛化到整個生成方法家族,而不是單個方法。不幸的是,先前的工作已經報告了泛化是圖像取證的關鍵。例如,最近的幾篇著作[48,13,41]觀察到,對一種GAN架構生成的圖像進行訓練的分類器在其他模型上進行測試時性能較差,並且在許多情況下,當僅有數據集發生變化而模型和任務不變時,泛化也會失敗[48]。這是有道理的,因爲圖像生成方法千差萬別:它們使用不同的數據集,網絡架構,損失函數和圖像預處理方法。
        在本文中,我們表明,與當前的理解相反,訓練用以檢測CNN合成圖像的分類器可以在數據集,體系結構和任務之間展現出令人驚訝的泛化能力。我們遵循慣例,通過使用單個CNN模型(我們使用ProGAN,一種高性能的無條件GAN模型[20])生成大量僞造圖像,並將模型的真實訓練樣本作爲負樣本,來訓練一個二元分類器,以檢測僞造圖像。
        爲了評估我們的模型,我們創建了一個由CNN合成圖像組成的新數據集,即ForenSynths數據集,該數據集由來自11個模型的合成圖像組成,其範圍從無條件的圖像生成方法(例如Style-GAN [21])到超分辨率方法[14]和deep-fakes[38]。每個模型都在適合其特定任務的不同圖像數據集上訓練。我們還繼續對最初編寫本文後重新發布的模型的檢測器進行評估,發現它可以在最新的無條件GAN StyleGAN2 [22]上開箱即用。

        在這種方法的簡單性之下,我們發現我們通過一系列實驗和經過訓練的圖像生成模型的新數據集研究了許多微妙的挑戰。我們發現,以通用圖像後處理操作的形式進行的數據增強對於泛化至關重要,即使目標圖像本身未經過後處理也是如此。(這句話需要重新表述一下)我們還發現訓練圖像的多樣性很重要;從CNN合成方法中採樣的大型數據集會導致分類器的性能優於在較小的數據集上訓練的分類器。最後,至關重要的是檢查後處理對模型泛化能力的影響,這種影響通常發生在圖像創建的下游(例如,during storage and distribution)。我們表明,如果採取正確的步驟,分類器確實對常見操作(如JPEG壓縮,模糊和調整大小)具有魯棒性。
        總而言之,我們的主要貢獻是:1)我們證明了在CNN合成圖像上訓練的取證模型對其他CNN合成方法表現出令人驚訝的泛化能力; 2)我們提出了一種新的數據集和評估指標用於檢測CNN生成的圖像; 3)我們從實驗上分析了影響跨模型泛化的因素。

相關工作

        檢測基於cnn的篡改。最近的一些工作已經解決了檢測cnn合成圖像的問題。Rossler等人[38]評估了檢測面部篡改技術的方法,包括基於cnn的面部和嘴的替換方法。研究表明,簡單的分類器可以檢測出由同一模型產生的假圖,但沒有研究模型或數據集之間的泛化問題。Marra等人[28]同樣表明,簡單的分類器可以檢測由圖像轉換網絡[18](image translation network)合成的圖像,但沒有考慮跨模型遷移。

        最近,Cozzolino等人[13]發現取證分類器在模型之間遷移性差,性能往往是隨機的。他們提出了一種新的表徵學習方法,基於自動編碼器,以提升檢測器在對各種生成方法進行zero- and low-shot training 的遷移性能。雖然他們的最終目標與我們的相似,但他們採取了一種正交的方法。他們專注於新的學習方法以提升遷移學習,並將它們應用於各種各樣的模型(包括CNN和非CNN)。相比之下,我們對不同訓練和測試條件下基於cnn的簡單“baseline”圖像生成器的性能進行了實驗研究。張等人[48]發現分類器在GAN模型之間泛化得很差。他們提出了一種名爲AutoGAN的方法來生成圖像,這種方法包含了GAN結構中常見的上採樣僞影,並在兩種類型的GANs上進行測試。其他的工作已經提出使用手工製作的cooccurrenc特徵或者建立在預先訓練的面部檢測器上的異常檢測模型來檢測GAN圖像。研究人員還提出了一些方法來確定,在幾個已知的GAN網絡中,哪一個生成了給定的圖像[29,45]。

        圖像取證。研究人員提出了多種方法來檢測更傳統的篡改技術,如圖像編輯工具。早期的工作集中在手工製作的線索[15]上,比如壓縮痕跡[4]、重採樣[36]或物理場景約束[31]。最近,研究人員將基於學習的方法應用到這些問題上[49,17,12,37,42]。這一系列的工作已經發現,像我們一樣,簡單的、監督學習分類器在檢測篡改時常常是有效的[49,42]。

        來自基於CNN生成器的僞造。研究人員最近發現,常見的CNN設計中含有降低其表徵能力的僞造痕跡。這些工作大部分集中在網絡執行上採樣和下采樣的方式上。這種僞造痕跡的一個知名例子是由deconvolutional層產生的棋盤僞像[32]。Azulay和Weiss的研究[5]表明卷積網絡忽略了經典的採樣定理,而大步卷積減少了平移不變性,Zhang [47]通過減少這些層的混疊來改善了平移不變性。 最近,Bau等人[6]提出GAN具有有限的生成能力,並分析了預訓練GAN無法生成的圖像結構。

3.基於CNN生成模型的數據集

        爲了研究經過訓練以檢測CNN合成圖像的分類器的可遷移性,我們收集了由各種CNN模型創建的圖像數據集,我們稱爲ForenSynths數據集。

3.1 生成模型

        我們的數據集包含11個合成模型。我們選擇了涵蓋各種CNN架構,數據集和損失的方法。所有這些模型都具有上採樣卷積結構(即它們通過序列卷積和上採樣操作生成圖像),因爲這是迄今爲止generative CNN的最常見設計。其合成圖像的示例可在圖1中找到。表1列出了每個數據集的統計數據。附錄中提供了數據收集過程的詳細信息。

 

        GANs。我們包括三個最先進的無條件GAN:ProGAN [20],StyleGAN [21],BigGAN [8],它們在LSUN [44]或ImageNet [39]數據集上進行了訓練。這些模型的網絡結構和訓練過程存在重大差異。ProGAN和StyleGAN爲每個類別訓練不同的網絡; StyleGAN將較大的每像素噪聲注入模型,以引入高頻細節。 BigGAN具有整體式,類條件結構,在非常大的批處理量上訓練,並使用self-attention層[46,43]。我們還包括三個條件GAN:最新的圖像到圖像轉換方法GauGAN [33]和非常受歡迎的unpaired圖像到圖像轉換方法CycleGAN [52]和StarGAN [11]。
        知覺損失(Perceptual loss)。我們考慮可以直接優化知覺損失[19]的模型,未添加對抗訓練。這包括以由粗到精的方式合成圖像的級聯優化網絡Cascaded Refinement Networks(CRN)[10],以及最近的隱式最大似然估計Im;licit Maximum Likelihood Estimation(IMLE)條件圖像轉換模型[25]。
        Low-level vision。我們包括“Seeing In The Dark”(SITD)模型[9],該模型使用高分辨率的全卷積網絡,通過短曝光原始相機的輸入,在弱光條件下近似長曝光的攝影。我們還使用了最新的超分辨率模型,即二階注意力網絡Second Order Attention Network(SAN)[14]。

        Deep fakes。我們還根據Róssler等人[38]的FaceForensics ++基準中提供的臉部置換圖像來評估我們的模型。它使用了公開可用的faceswap工具[1]。雖然“ deepfake”通常被用作通用術語,但我們從[38]中的約定中得到啓發,並將此特定模型稱爲DeepFake。該模型使用自動編碼器生成人臉,並且圖像經過大量的後處理步驟,包括泊松圖像融合[34]。按照[38],我們使用裁剪的臉。

3.2 生成僞圖像

        我們從模型中收集圖像,注意匹配每個模型執行的預處理操作(例如重新調整大小和裁剪)。對於每個數據集,我們通過從模型中生成僞圖像來收集僞圖像(或下載官方發佈的生成圖像(如果可用)),未進行額外的後處理。我們從每種方法的訓練集中收集了相等數量的真實圖像。爲了使真實和僞造圖像的分佈儘可能接近,將根據每種方法規定的流程對真實圖像進行預處理。
        由於256×256分辨率是大多數現成的圖像合成模型(例如CycleGAN,StarGAN,ProGAN LSUN,GauGAN COCO,IMLE等)中最常見的共享輸出尺寸,因此我們將此分辨率用於我們的數據集。對於生成較低分辨率圖像的模型(例如DeepFake),我們使用雙線性插值將圖像等比縮放到較短邊邊長爲256,對於生成較高分辨率圖像的模型(例如ProGAN,StyleGAN,SAN,SITD),我們將圖像保持在相同的分辨率。儘管這些情況與我們的訓練方案略有不同,但我們觀察到我們的模型仍然能夠在這些類別下檢測僞造圖像。對於所有數據集,我們對224×224的crops做出真實/假的預測。

4 檢測CNN合成的圖像

        是否在不同的CNN生成器之間共享共同的特徵或僞像?爲了理解這一點,我們研究了是否有可能根據一個模型生成的僞造圖像來訓練診斷分類器並泛化到其它模型上。

4.1  訓練分類器

        儘管所有這些模型都可用於評估,但由於數據集大小的限制,並非所有模型都非常適合訓練分類器。我們利用這樣一個事實,即我們數據集中的無條件GAN模型可以合成任意數量的圖像,並選擇一種特定的模型ProGAN [20]來訓練檢測器。使用單一模型進行訓練的決定與現實世界中的檢測問題極爲相似,在訓練時要泛化的模型的多樣性或數量是未知的。通過僅選擇單一模型進行訓練,我們正在計算任務的挑戰性上限。如果聯合訓練多個模型將使得泛化問題更容易。我們選擇ProGAN是因爲它可以生成高質量的圖像並具有簡單的卷積網絡結構。
        然後,我們創建一個僅由ProGAN生成的圖像和真實圖像組成的大規模數據集。我們使用20個模型,每個模型在不同的LSUN [44]對象類別中進行訓練,並生成36K訓練圖像和200個驗證圖像,每個模型具有相同數量的真實和合成圖像。總共有用於訓練的720K圖像和用於驗證的4K圖像。
        我們實驗的主要思想是在此ProGAN數據集上訓練判別“真實或僞造”的分類器模型,並評估該模型對其他CNN合成圖像的泛化效果。對於分類器的選擇,我們使用ResNet-50 [16]。使用ImageNet進行預訓練,然後在二元分類設置中進行訓練。附錄中提供了訓練步驟的詳細信息:附錄B.2:爲了訓練分類器,我們使用Adam優化器[23],其中β1= 0.9,β2= 0.999,批處理大小爲64,初始學習率爲10^(−4)。 如果在5個epoch後驗證準確性未提高0.1%,學習率將下降10倍,並且我們將以10^(-6)的學習率終止訓練。 一個例外是,爲了平衡訓練迭代與訓練集的大小,對於{2,4,8,16}-class模型和{10,20,40,80}%-data模型 ,如果{50、25、13、7}個epoch的驗證精度達到穩定,則學習率就會下降。(???)
        數據增強。在訓練期間,我們以多種方式模擬圖像後處理操作。我們所有的模型都使用隨機左右flipped並裁剪爲224像素的圖像進行訓練。我們評估了幾種額外的數據增強變體:(1)No aug:不應用數據增強;(2)Gaussian blur高斯模糊:在裁剪前,圖像有50%的概率被σ〜Uniform [0,3]所模糊,(3 )JPEG:兩個流行的庫OpenCV [7]和PIL以50%的概率對JPEG圖像進行JPEG編碼,quality~Uniform {30,31,...,100}(4a)Blur + JPEG(0.5):圖像可能會被模糊和JPEG編碼,每種可能性爲50%;(4b)Blur + JPEG(0.1):與(4a)類似,但可能性爲10%。
        爲了評估訓練架構的選擇,我們還包括一個僅在BigGAN數據集上訓練的模型,表示爲Blur + JPEG(Big)。爲了進行比較,我們使用與(4a)相同的數據增強來訓練模型。
        評估。繼最近的其他取證工作[50,17,42]之後,我們使用平均精度(AP)評估模型在每個數據集上的性能,since it is a threshold-less, ranking-based score that is not sensitive to the base rate of the real and fake images in the dataset。我們分別爲每個數據集計算該分數,因爲我們希望它取決於整個照片的語義內容。爲了幫助解釋threshold-less的結果,我們還對模型的輸出和計算精度進行了閾值化實驗,並假設真實和合成圖像等可能出現(第4.6節)。在測試過程中,每個圖像都進行了中心裁剪而不進行縮放,以匹配模型在訓練過程中使用的後處理流程。測試期間不包含任何數據增強;取而代之的是,我們在第4.2節的後處理中進行了模型魯棒性實驗。

4.2  數據增強的效果

        在表2中,我們研究了使用不同增強方法進行訓練的泛化能力。我們發現使用aggressive的數據增強(以模擬後處理的形式)可提供令人驚訝的泛化能力,即使在測試時沒有使用此類擾動也是如此。此外,我們觀察到這些模型對後處理明顯更魯棒(圖6)。

       

 

        增強(通常)可以提高泛化性首先,我們先評估基於ProGAN的分類器,沒有進行增強,如“ no aug”這一行所示。與以前的工作[38]一樣,我們發現對held-out的ProGAN圖像進行測試效果很好(100.0 AP)。然後,我們測試將其泛化到其他無條件GAN的性能。我們發現它泛化到StyleGAN上非常好,StyleGAN具有類似的網絡結構,但與BigGAN相比卻不那麼理想添加增強後,BigGAN的性能將顯着提高,從72.2→88.2。在條件模型(Cycle-GAN,GauGAN,CRN和IMLE)上,性能得到了類似的改善,分別爲84.0→96.8、67.0→98.1、93.5→98.9、90.3→99.5。
        有趣的是,有兩種模型:SAN和DeepFake,它們在不進行增強的情況下直接在ProGAN上進行訓練的效果很強(分別爲93.6和98.2),但是增強會損害性能。由於SAN是超分辨率模型,因此只有高頻分量才能區分真實圖像和僞圖像。因此,在訓練時消除這種線索(例如通過模糊)可能會降低性能。應用數據增強但以減少程度(Blur + JPEG(0.1))提供了良好的平衡:DeepFake檢測與無增強情況(89.0)相當,而大多數其他數據集比無增強有明顯改善。
        增強提高了魯棒性。在許多實際場景中,我們要評估的圖像具有未知的後處理操作,例如壓縮和調整大小。我們調查了即使經過這些後處理步驟,CNN生成的圖像是否仍然可以被檢測到。爲了測試這一點,我們根據[42]中的協議對真實和僞造圖像進行了模糊處理(模擬重採樣)和JPEG壓縮,並評估了我們檢測它們的能力圖6)。在ProGAN上(即測試分佈與訓練匹配的情況),即使應用增強操作,性能仍爲100%,這表明僞像可能不僅是高頻的,而且還存在於整個頻帶中。在跨生成模型泛化方面,增強的模型對於數據中包含的後處理操作最爲魯棒,與[38、42、45、48]的觀察一致。我們注意到,即使在分佈外的CNN模型上進行測試時,我們的模型也從增強中獲得了魯棒性。

圖6:魯棒性Robustness。 我們展示了給定test-time擾動(左)高斯模糊和(右)JPEG的AP的效果。 我們顯示了在ProGAN上進行訓練的分類器,在訓練過程中應用了不同的增強。 請注意,在所有情況下和兩種擾動下,在不進行增強訓練(紅色)的情況下,添加擾動後,所有數據集的性能都會下降。 在大多數情況下,兩種增強訓練的效果最佳或接近最佳。 值得注意的例外是超分辨率(沒有增強是最好的),而DeepFake則僅在測試期間使用擾動進行訓練,而不是兩者都表現最佳。

4.3 數據多樣性的影響

        接下來,我們看看訓練集中真實圖像和合成圖像的多樣性如何影響分類器的泛化能力。
        圖像多樣性提升性能。爲了對此進行研究,我們改變了用於訓練real-or-fake分類器的數據集中的類別數(圖4)。具體來說,我們訓練了多個分類器,每個分類器在整個訓練數據集的一個子集上進行訓練,該子集排除從一組特定的LSUN類別派生的真實和僞造圖像。我們發現,增加訓練集的多樣性可以提高性能,但只能提高一點。當使用的類別數從2 增加到16, AP持續提高,但是我們看到收益遞減時,最終將類別數從16增加到20時只有最小的改進。This indicates that there may be a training dataset that is “diverse enough” for practical generalization.
        與在不同模型上訓練的比較。爲了測試以查看我們來自ProGAN的結論是否可以推廣到在不同模型上的訓練,我們還對來自ImageNet預訓練的256×256 BigGAN模型的數據訓練了分類器[8]。我們生成40萬張僞圖像,並使用與真實圖像具有相同類別分佈的40萬張ImageNet圖像。我們在表2中看到,該模型也表現出泛化,儘管在大多數情況下結果略低。對此的一種解釋是,我們的ProGANs模型是在整體上訓練的(每個類別由一個模型生成),但是BigGAN圖像是使用單個模型生成的。

4.4 與其他模型的比較

        接下來,看看我們的泛化性能如何與其它取證方法進行比較如何。我們將我們的方法與Zhang等人 [48]進行了比較。這是一類經過訓練以檢測由常見CNN架構合成的圖像的分類器,許多圖像合成任務(例如CycleGAN和StarGAN)都共享這種架構。他們引入了Auto-GAN,這是一種基於CycleGAN生成器的自動編碼器,可以模擬類似於CycleGAN圖像的僞像。
        我們考慮了Zhang等人[48]的預訓練模型的四個變體,每個變體分別從兩個圖像源(CycleGAN和AutoGAN)之一和兩種圖像表示(圖像和光譜)之一訓練。在訓練過程中,所有四個變體都包括JPEG和resize的數據增強,以提高每個模型的魯棒性。我們發現,除了CycleGAN([48]使用的模型體系結構),StarGAN(兩種方法均獲得接近100.0 AP的模型)外,我們的模型對其他體系結構的泛化效果明顯更好。比較結果顯示在表2圖5中。

4.5 新的CNN模型

        我們希望,隨着新的深度合成模型的到來,我們的系統能開箱即用立刻檢測。隨着最新版本的無條件GAN StyleGAN2 [22]的發佈,這種評估場景自然而然產生。 StyleGAN2模型對StyleGAN進行了幾處更改,包括重新設計的歸一化,多分辨率和正則化方法。在表4中,我們在公開的StyleGAN2生成器上測試我們的檢測器。我們使用了Blur + JPEG(0.1)模型,並在LSUN汽車,貓,教堂和馬的變體上進行了測試。儘管有這些改變,但我們的技術仍能達到99.1%的AP。這些結果強化了這樣的觀念,只要使用類似的基本構建塊,就可以在現今的生成器上進行全面的訓練,並將其泛化到未來的生成器上。

4.6 其他評估指標

        爲了幫助闡明threshold-less AP評估指標,我們還計算了其他幾個指標(表3)。我們通過圖2中的(Blur + JPEG(0.1))模型在每個數據集上提供了精度和召回曲線。我們只需使用分類器,就可以得出模型在測試分佈上的uncalibrated的泛化精度我們在訓練中學習到的閾值,以及oracle準確性,該準確性選擇了可以使測試集的準確性最大化的閾值。我們還考慮了兩次拍攝的機制,在該兩次拍攝中,我們可以從每個數據集中訪問一張真實的圖像和一張僞造的圖像,並且在兩次拍攝的校準過程中僅調整模型的閾值。附錄中提供了兩次校準的詳細信息。(重翻)

4.7 定性分析

        爲了瞭解網絡如何將其泛化到未知的CNN模型,我們通過可視化分類器在合成數據集的“虛假性”上的排名來研究分類器可能使用的線索。此外,我們分析了跨數據集的真實圖像和合成圖像的頻率響應之間的差異。
        模型“僞造”排名。我們研究模型是學習由CNN架構生成的精細的低層次特徵還是視覺質量等高級特徵。採用與以前的image realism工作類似的方法[24,51],我們根據模型的預測對每個數據集的合成圖像進行排名,並從我們模型的輸出中以“假”得分的第0、25、50、75、100%來可視化圖像。
        在大多數數據集中,我們觀察到模型預測與合成圖像的視覺質量之間幾乎沒有明顯的相關性。但是,BigGAN和StarGAN數據集具有弱相關性。示意如圖7隨着“假性”得分的提高,圖像傾向於包含更多可見的僞造痕跡,從而破壞了視覺質量。這意味着我們的模型可能會在此任務下學會捕捉感知真實性。但是,由於在其他數據集中未觀察到相關性,因此該模型更可能從低級CNN僞造痕跡中學習特徵。附錄中提供了所有數據集的示例。

        CNN圖像合成的僞造痕跡。受Zhang等人啓發[48],我們將每個數據集的平均頻譜可視化,以研究由CNN產生的僞造痕跡,如圖8所示。在進行了先前的工作之後,我們執行了一種簡單形式的高通濾波(從圖像的中值模糊版本中減去圖像),然後再進行傅里葉變換,因爲它提供了更豐富的可視化效果[29]。對於每個數據集,我們平均超過2000個隨機選擇的圖像(如果較小,則爲整個集合)。
        我們注意到在這些可視化中有許多有趣的模式。雖然實際圖像光譜通常看起來相似(由於數據集中的差異而有微小的變化),但是在由不同的CNN模型生成的圖像中可以看到明顯的圖案。此外,這些頻譜中的重複週期模式可能與僞造痕跡一致,這是[48]考慮的一種線索。有趣的是,最有效的無條件GAN(Big-GAN,ProGAN)包含的僞像(僞造痕跡)相對較少。此外,DeepFake圖像不包含明顯的僞像。我們注意到,DeepFake圖像經過了各種預處理和後處理,其中合成的面部區域被調整大小,混合並用MPEG壓縮。這些操作會干擾低層次的圖像統計信息,這可能會導致這種可視化方法無法顯示頻率pattern。

5.討論

        儘管圖像合成方法質量的快速提升引起了人們的警覺,但我們的結果表明,當今的CNN生成的圖像保留了可檢測到的指紋,可將其與真實照片區分開。這使得取證分類器無需廣泛修改即可從一種模型泛化到另一種模型。
        但是,這並不意味着當前情況將持續下去。由於難以獲得納什均衡(?),目前基於GAN的架構都沒有優化到收斂,即生成器永遠不會win against判別器。如果改變了這種情況,我們會突然發現自己處於合成圖像與真實圖像完全無法區分的情況。
        即使使用當前的技術,仍然存在實際令人擔憂的原因。首先,即使是最好的取證檢測器,也要在真實檢測率和錯誤陽性率之間進行權衡。由於惡意用戶通常希望創建一個僞造的圖像(而不是僞造的分佈),因此他們可以簡單地手動選擇恰好通過檢測閾值的僞造圖像。其次,可能在社交媒體平臺(Facebook,Twitter,YouTube等)上惡意使用僞造的圖像,因此數據將經歷許多通常aggressive的轉換(壓縮,調整大小,重新採樣)等)。儘管我們在某種程度上表現出了JPEG壓縮,模糊和調整大小的魯棒性,但還需要做更多的工作來評估當前檢測器在現實中應對這些轉換的能力。最後,迄今爲止,已記錄的有效部署視覺假圖的大多數實例都是使用經典的“shallow”方法,例如Photoshop。我們已經在[42]的面部識別液化數據集上運行了檢測器,並進行了實驗,發現我們的方法在此數據上表現出隨機性。這表明shallow方法與deep方法表現出根本不同的行爲,因此不應忽略。
        我們注意到,檢測僞造圖像只是如何應對視覺虛假信息威脅的一小部分。有效的解決方案將需要納入從技術到社會再到法律的廣泛戰略。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章