【CVPR 2018】Learning Rich Features for Image Manipulation Detection(圖像篡改檢測)

今天來給大家分享一篇CVPR2018的論文,檢測圖像的篡改區域,用更快的R-CNN網絡定位圖像被篡改的部分,練就PS檢測的火眼金睛。讓PS痕跡無處可逃。這就將圖像鑑僞,圖像取證這方面與深度學習技術結合起來啦。針對這篇論文的分享,做了一個PPT,放到CSDN的下載專區,有論文的PDF(帶部分註解),有PPT可修改。下載鏈接如下https://download.csdn.net/download/luolan9611/10681683

在分享論文前,先POU兩個鏈接,說點和圖像取證有關的:

1. “誰動了我的圖片?” - 圖像取證技術

在這篇文章中,介紹了一些常見的圖像篡改的方法和檢測篡改的技術,很有趣。

2. 深度學習在圖像取證中的進展與趨勢

這篇文章介紹了5篇深度學習應用於取證領域的工作,涉及到了取證問題中的相機源取證,中值濾波取證,重獲取圖像取證以及反反取證,還列有很多參考文獻。

================================================== =============================================

一,概述

先給大家展示一下論文中提到的三種圖像篡改手段:

拼接指的是把別的圖裏面的某個物體拼接到另一張圖上。

複製舉動是同一張圖上,進行部分區域的拷貝,然後放到該圖中的其它地方。

去除是指對像素進行修改,將某部分圖像“移除”。

第一列是真實圖像,第二列是P過的圖,第三列是真實數據的掩膜展現出篡改的區域。

1.本文提出了一個雙流Faster R-CNN網絡並訓練它端到端以檢測給定圖像的篡改區域。

2.雙流指的是 RGB流噪聲流。RGB流的目的是從RGB圖像輸入中提取特徵以找到諸如強對比度差異,非自然篡改邊界等的篡改特徵;噪聲流是利用從富含隱寫分析的模型濾波器(SRM)層提取的噪聲特徵來發現真實和篡改區域之間的噪聲不一致。

3.作者通過雙線性池化層融合來自兩個流的特徵,以進一步結合這兩種模態的空間共現。

4.在四個標準圖像處理數據集上的實驗表明本文的雙流框架優於每個單獨的流,並且與其他方法相比,在壓縮圖像和resize大小的圖像的檢測上表現出了該方法的魯棒性,達到了最先進的性能。
 

二、Method-雙流Faster R-CNN

這是本文提出的方法,雙流Faster R-CNN網絡:

如上圖所示,橘黃色的箭頭連起來的是RGB流,藍色的箭頭連起來的是噪聲流。每個單獨的流其實都是一個Faster R-CNN。熟悉Faster R-CNN的朋友應該很容易看懂。

       RGB流以RGB圖像作爲輸入,利用對象邊緣的異常高對比度(解釋1),並將邊界框迴歸到真實值。噪聲流首先通過將輸入RGB圖像傳遞通過SRM濾波器層(解釋2)來獲得噪聲特徵圖,並利用噪聲特徵來爲操縱分類提供額外的證據。 RGB和噪聲流共享來自RPN網絡的相同區域提議,但RPN網絡僅使用RGB特徵作爲輸入(就是黃色箭頭指向了RPN layer的那裏)(解釋3)RoI池化層RGB和噪聲流中選擇空間特徵。預測的邊界框(表示爲'bbx pred')是從RGB RoI特徵生成的。在RoI池之後的雙線性池化層使網絡能夠組合來自兩個流的空間共現特徵。最後,通過完全連接的層和softmax層傳遞結果,網絡產生預測的標籤(表示爲'cls pred')並確定預測區域是否已被操縱。

第一:篡改區域在原始RGB圖像上的展示

第二列:第一列圖中紅色bounding box的放大圖。棒球運動員邊緣的高度不自然提供了篡改的線索。

第三列:經過SRM filter過濾後的局部噪聲特徵,展現了篡改區域與真實區域局部噪聲的不一致性。

第四:正確標記的數據

解釋1:看上圖第一行第二個,棒球手的褲邊,這裏就是異常的高對比度

解釋2:圖像在輸入到噪聲流前要先經過SRM過濾器過濾,得到局部噪聲特徵,才能作爲噪聲流的輸入。看上圖第二列。

解釋3:爲什麼只選擇RGB特徵座位RPN(區域候選模塊)的輸入呢?回答:是由實驗對比出來的選擇。本文作者做了單流網絡、RPN採用不同輸入的雙流網絡在檢測篡改區域上的對比實驗。結果如下表,不僅表明雙流比單流的效果出色,也表明了僅採用RGB特徵作爲RPN輸入的雙流的效果是最好的。

                                               

RGB Net指的是僅使用RGB單流檢測篡改區域,

Noise Net僅使用噪聲流,

RGB-N noise RPN是指雙流,但採用noise特徵作爲RPN輸入,

Noise+RGB RPN是指雙流,同時採用noise和RGB特徵作爲RPN輸入,

RGB-N是指雙流,僅採用RGB特徵作爲RPN輸入。(這是本文最終採用的方法)

2.1RGB流

        RGB是單一的Faster R-CNN網絡,用於bounding box的迴歸和篡改分類。本文使用的是ResNet101網絡從輸入的RGB圖像中學習特徵。ResNet的最後一層用於篡改分類。RPN網絡利用RGB流中的特徵去提取ROI區域,用於boundng box的迴歸。RPN網絡的loss值定義如下:(具體含義見論文)

                                                           

 

2.2噪聲流

        噪聲流是利用從富含隱寫分析的模型濾波器(SRM)層提取的噪聲特徵來發現真實和篡改區域之間的噪聲不一致。SRM收集基本的噪聲特徵,量化並截斷這些過濾器的輸出,並提取附近的共現信息作爲最終特徵。本文只使用3個內核了獲得不錯的性能,且應用所有30個內核並沒有顯着提高性能。因此,作者選擇了3個內核,並直接將這些內核提供給經過預先訓練的網絡訓練在3通道輸入上。SRM層的輸出通道大小爲3。更多和SRM相關的詳見論文中引用的一篇論文。在這裏pou一下用於提取噪聲特徵的3個SRM filter kernel。

                                          

2.3雙線性池化

雙線性池化把RGB流和噪聲流結合到一起的同時保留了空間信息。雙線性池化層輸出爲x,,      fRGB是RGB流的ROI特徵,fN是噪聲流的ROI特徵。

總的loss函數

(寫博客寫了這麼長還沒有寫完,我的耐心都快被磨光了.......一個強迫症的耐心,唉)

 

三、實驗部分

3.1預訓練模型

當前的標準數據集沒有足夠的數據用於深度神經網絡訓練。爲了在這些數據集上測試提出的網絡,作者在合成數據集上預先訓練模型。

1.使用COCO的圖像和註釋自動創建合成數據。最後,作者創建42K篡改和真實的圖像對。分開訓練集和測試集。

2.模型的輸出是帶有置信度分數的邊界框,表示檢測到的區域是否已被篡改。要在感興趣區域(RoI)中包含一些真實區域以便更好地進行比較,作者會在訓練期間將默認邊界框略微放大20像素,以便RGB和噪聲流都能夠了解篡改區域和真實區域之間的不一致性

3.在這個合成數據集上端到端地訓練我們的模型。Faster R-CNN中使用的ResNet 101ImageNet上進行了預訓練。作者使用平均精度(AP)進行評估,其度量與COCO 檢測評估相同

這個預訓練得到的表就是之前給大家pou過的那個

                                         

3.2在標準數據集上的實驗

3.2.1       4個標準數據集

NIST16該數據集包含了之前提到的三種圖像篡改手段, 對該數據集中的操作進行後處理以隱藏可見跡線。 它們還提供用於評估的真實值篡改掩模。

CASIA提供各種對象的拼接複製移動 copy-move 圖像。仔細選擇篡改區域,並且還應用諸如過濾和模糊的一些後處理。通過對篡改圖像和原始圖像之間的差異進行閾值處理來獲得地面實況掩模。本文使用CASIA 2.0進行訓練,使用CASIA 1.0進行測試。

COVER是一個相對較小的數據集,專注於copy-move.它覆蓋與粘貼區域類似的對象,以隱藏篡改區域(參見圖1中的第二行)。提供真實值掩模。

Columbia哥倫比亞數據集側重於基於未壓縮圖像的拼接。提供真實值掩模

        爲了在這些數據集上微調本文的模型,本文從真實值掩模中提取邊界框。訓練集和測試集的劃分見2

                                    

3.2.2      Baseline Models

•ELA:一種錯誤級別分析方法,旨在通過不同的JPEG壓縮等級找出篡改區域和真實區域之間的壓縮誤差

•NOI1:基於噪聲不一致的方法,使用高通小波係數來模擬局部噪聲。

•CFA1CFA模式估計方法,它使用附近的像素來近似相機濾波器陣列模式,然後產生每個像素的篡改概率。

•MFCN:基於多任務邊緣增強FCN網絡使用邊緣二進制掩碼和使用篡改區域掩碼的篡改區域聯合檢測篡改邊緣。

•J-LSTM:基於LSTM網絡聯合訓練補丁級別篡改邊緣分類和像素級別篡改區域分割。

RGB Net單個Faster R-CNN網絡,RGB圖像作爲輸入。即,我們的RGB Faster R-CNN流。

噪聲網:單個Faster R-CNN網絡,其噪聲特徵映射作爲從SRM濾波器層獲得的輸入。在這種情況下,RPN網絡使用噪聲特徵。

•Late Fusion直接融合,結合RGB Net和噪聲網絡的所有檢測到的邊界框。來自兩個流的重疊檢測區域的置信度得分被設置爲最大值。

RGB-N用於操作分類的RGB流和噪聲流的雙線性池和用於邊界框迴歸的RGB流。即本文的完整模型。

3.2.3     評估標準

        使用像素級別F1得分和接收器操作特性曲線下的面積(AUC)作爲性能比較的評估指標。 F1得分是用於圖像操縱檢測的像素級評估度量,如[33,29]中所討論的。 我們改變不同的閾值,並使用最高的F1分數作爲每個圖像的最終得分,遵循[33,29]中的相同協議。 我們將置信度分數分配給檢測到的邊界框中的每個像素,以進行像素級AUC評估。

3.2.4     實驗結果

   

        表3顯示了本文的方法baseline model之間F1分數比較。 表4提供了AUC比較。從這兩個表中可以清楚地看出本文方法優於傳統方法,如ELANOI1CFA1。 這是因爲它們都專注於特定的篡改工件,這些篡改工件僅包含用於本地化的部分信息,這限制了它們的性能。 本文方法在哥倫比亞和NIST16數據集上優於MFCN3也能看出雙流的性能比單流好。

                                

Table5:不同數據增強方法對性能的影響。圖像翻轉提高了性能,而JPEG壓縮和噪聲等其他增強方法對性能幾乎沒有改進。

表6 :在resize 和經過jpeg 壓縮後的數據上進行實驗,本文的方法表現最優。

表7 :移動複製的英文。本文提出的方法中最難檢測的,篡改技術。解釋是,一方面,複製的區域來自同一圖像,這產生類似的噪聲分佈以混淆我們的噪聲流另一方面,這兩個區域通常具有相同的對比度。而且,該技術理想地需要將兩個對象彼此進行比較(即,它需要同時找到並比較兩個投資回報),這是當前方法不能做到的。因此,我們的RGB 流沒有證據來區分這兩個區域。

 

四,可視化結果展示

第一列是篡改後的圖像,第二列的白色區域是篡改區域,第三列和第四列都是單流,最後一列是本文的雙流方法可視化的結果。可以看到單流的檢測不準確,雙流的效果很不錯。

終於寫完啦!!!!!還是老樣子,針對這篇論文的分享,做了一個PPT,放到CSDN的下載專區,有論文的PDF(帶部分註解),有PPT可修改下載鏈接:https://download.csdn.net/download/luolan9611/10681683

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章