論文翻譯-Defending Against Universal Attacks Through Selective Feature Regeneration

CVPR2020-通過選擇性特徵再生防禦通用攻擊

        有一段時間自己看的論文都沒有把相應的翻譯或者筆記整理成文檔的形式了,雖然在PDF上會有一些標註,但是覺得還是成稿的形式會方便很長一段時間之後回過頭繼續看及時回顧起來。

摘要

        深度神經網絡(DNN)的預測已經被證明容易受到精心設計的對抗性擾動的影響。特別地是,向任何圖像中添加圖像不可知的擾動(即通用對抗擾動)都可以欺騙目標網絡,使其做出錯誤的預測。現有的防禦策略主要在圖像域進行,而我們提出了一種在DNN特徵域進行防禦的新型防禦策略,有效地防禦了這種通用擾動。我們的方法識別出最容易受到對抗噪聲影響的預訓練卷積特徵,並部署了可訓練的特徵再生單元,將這些DNN濾波器激活轉換成對通用擾動具有魯棒性的彈性特徵。在最多6個DNN層中只恢復最高50%的相對敏感性活動,並保持所有剩餘的DNN活動不變,我們在恢復精度上比現有的跨不同網絡架構的防護策略提高了10%以上。我們證明,在沒有任何額外修改的情況下,我們在ImageNet上用一種類型的通用攻擊樣本進行的防禦訓練能有效防禦其他類型的未知通用攻擊。

介紹

        儘管DNN在計算機視覺任務中不斷取得成功並得到廣泛應用[25,59,62,18,55,54,58,68],當一個小幅度的、精心設計的擾動(對抗噪聲),人們幾乎察覺不到它的存在,被添加到一個輸入圖像中時,這些網絡還是做出了錯誤的預測[63,15,35,6,24,41,48,26,49]。此外,這種干擾已經成功地通過物理對抗樣本[3,12,26]放置在現實世界的場景中,從而構成了安全風險。

        大多數現有的對抗性攻擊都使用目標網絡模型梯度來構建一個依賴於圖像的對抗樣本[63,15,26,41,49,6],限制了在其他網絡或圖像上的遷移性[63,32,47]。其他產生依賴圖像的對抗樣本的方法包括只訪問網絡預測結果[20,46,61],使用替代網絡[48]和梯度近似[2]。雖然之前在對抗防禦方面已經做了大量的工作,例如對抗性訓練[63,15,35,66],集成訓練[64],隨機圖像轉換和去噪[16,52,10,40,52,60,10,33,31],以及對抗性樣本排斥[29,34,67,36,37],DNN仍然是脆弱的,在面向這種添加到輸入不可忽視部分的對抗擾動時[2,65]。這些防禦措施主要集中在使DNN對依賴圖像的對抗性擾動具有魯棒性,而圖像相關的對抗性擾動在現實的視覺應用中不太可能遇到[1,45]。

        我們提出的工作重點是防禦通用對抗性攻擊。與前面提到的依賴圖像的對抗性攻擊不同,通用對抗性攻擊[38,44,43,51,23,45,53,42,30]構建了一個單一的圖像不可知的擾動,當添加到任何未知的圖像可以以高置信度愚弄模型輸出錯誤的結果。這些通用的擾動也不是唯一的,許多對抗的方向可能存在於Dnn的特徵空間(圖1,第2行)[39,14,]。此外,對一個DNN產生的通用擾動可以遷移到其他DNN,使它們具有雙重通用性[38]。這種與圖像無關的干擾爲許多視覺應用提供了一個強有力的現實威脅模型[45],因爲擾動可以很容易地預先計算,然後實時地插入到任何場景中(以打印的對抗性補丁或貼紙的形式)[28,5]。例如,當執行語義分割時,這種圖像不可知擾動可以在分割後的場景輸出中完全隱藏目標類(即行人),並對自動駕駛汽車的剎車行爲產生不利影響[19]。

        這項工作提出了一種新穎的防禦方法來對抗通用的對抗性威脅模型[38,43,44,51,23,45],有以下貢獻:

1.我們證明了一組易受攻擊的卷積濾波器的存在,它們對DNN在對抗環境下的錯誤預測負有很大的責任,“卷積濾波器權重的1-norm”可用於識別這類濾波器。

2.與現有的圖像域防禦不同的是,我們提出的DNN特徵空間防禦使用可訓練的特徵再生單元,將上述易受攻擊的卷積濾波器再生爲彈性特徵(對抗性噪聲掩蔽)。

3.提出了一種爲訓練產生強合成對抗擾動的快速方法。

4.我們在一系列DNN體系結構上廣泛評估了提出的防禦方案,並表明我們提出的防禦方案優於所有其他現有的防禦方案[1,52,66,31,35,45](圖1)。

5.在沒有任何額外的特定攻擊訓練的情況下,我們的防禦系統針對一種通用攻擊[38]有效地防禦其他不同的未知通用攻擊[44,43,51,45,23,42](圖1),我們是第一個在不同的通用攻擊中顯示如此廣的泛化性能的防禦方法。

圖1.提出的防禦對各種通用擾動的效果:第1行展示了受到不同通用攻擊(UAP [38],NAG [44],GAP [51]和sPGD)干擾的圖像(類別標籤:“冰淇淋”) [45]),第二行展示了不同的通用擾動之間的差異。 第3行顯示了提出的防禦方法和次優防禦方法(PRN [1],PD [52],FD [66]和HGD [31])的預測和置信度得分。 我們的方法有效地防禦了每個通用攻擊,以較高的置信度正確分類圖像(綠色),而所有其他防禦將圖像錯誤分類(紅色)。

相關工作

對抗訓練[63,15,35]在訓練階段通過增強DNN對依賴於圖像的對抗性攻擊的魯棒性,並結合對抗樣本,對每一小批使用梯度上升的DNN進行實時計算,使DNN的損失最大化。通過對從一組DNNs[64]中選擇的不同目標dnn進行擾動計算,可以提高對抗訓練對黑盒攻擊的魯棒性。Kan-nan等人[22]規模對ImageNet的對抗性訓練[9],通過鼓勵對抗性損失匹配logits對抗性和無干擾的圖像(logit配對)

但是後一種方法對於更強的迭代attacks[11]是失敗的。除了正面訓練基線DNN外,先前的工作([66],[27])通過去噪中間DNN特徵映射圖,通過非局部平均去噪(特徵[66])或去噪自動編碼器(加強網[27]),進一步提高了DNN對圖像相關攻擊的魯棒性。雖然Xie等人報告了對於強PGD攻擊的有效魯棒性,[35]evaluatedonImageNet[9],額外的非局部平均值僅比使用標準對抗訓練的DNN增加了4%的改進。與特徵去噪[66]相比,本文提出的特徵再生方法有以下區別:(1)我們的特徵再生單元不僅限於去噪,而且還包括可訓練卷積層的疊加,這些疊加爲我們的防禦提供了靈活性,可以學習適當的特徵恢復變換,有效地防禦單一攻擊,不同於在FD中使用的非局部均值去噪;(2)在選定的DNN層中,只再生最易受對抗性噪聲影響的特徵映射子集(由我們的排名度量標識),不改變其他特徵映射,而FD去除了所有特徵映射,這可能導致過度校正或引出低幅度噪聲特徵映射中不需要的人工影響;(3)不像FD那樣對基線DNN中的所有參數進行逆向訓練,而是隻對特徵更新單元中的參數進行訓練(最多比基線DNN少90%的參數),並保留基線DNN中的所有參數不變,這樣可以加快訓練速度,減少過擬合的風險。

圖像域防禦通過利用不可微變換的輸入,如圖像壓縮[10,8,33],頻域去噪[60]和圖像拼接和重建[16,40]等,來減輕逆向擾動的影響。然而,這種方法在乾淨的圖像中產生不必要的僞影,導致精度損失[1][52]。Prakash等人[52]提出了一個兩步防禦,首先執行隨機局部像素分配,其次是小波降噪。Liao等人。[31]在基線DNN的輸入端附加一個去噪的自動編碼器,並使用一個重建損失來訓練它,這個重建損失最小化了DNN的高層表示之間的誤差,用於輸入一對乾淨的和去噪的對抗性圖像(高級引導去噪器)。另一種流行的分析方法是,首先檢測到對抗性的干擾輸入,然後避免做出預測,或者進一步預處理對抗性的輸入,以便進行可重複性的預測[29,34,67,36,37]。

前面提到的所有防禦措施都是針對特定於圖像的基於梯度的攻擊,到目前爲止,沒有一個防禦措施能夠抵禦圖像不可知論者的攻擊。爲了提高對全局攻擊的魯棒性,最初的嘗試包括建立這種可能性的分佈模型。

 

通用威脅模型

令µc表示Rd中乾淨(不受干擾)圖像的分佈,F(·)是一個預測器,可預測圖像x∈Rd的類別標籤F(x)。 通用對抗擾動攻擊在以下約束條件下尋找擾動向量v∈Rd [38]:

其中P(·)表示概率,||.||p是p∈[1,∞]的lp-範數,(1-δ)是δ∈[0,1)的目標愚弄率(即乾淨樣本在受到對抗干擾時改變標籤的佔比),並且ξ控制對抗擾動的大小。

特徵域對抗防禦

在這項工作中,我們評估了單個卷積過濾器的脆弱性並表明,對於每一層,某些過濾器激活的破壞性明顯大於其他過濾器,尤其是在DNN的前幾層。
        對於給定的層,令φm(u)爲第m個卷積濾波器的輸出(激活圖),其中輸入u的kernel權重爲Wm。令em =φm(u + r)−φm(u)是由於在輸入u上施加了附加擾動r而在輸出激活圖φm(u)中引起的附加噪​​聲(擾動)。可以證明(請參閱補充材料)em的邊界如下:


        像以前一樣||.||p是p∈[1,∞)的L-p範數。公式2表明,卷積核權重的L1-範數可用於識別和限制卷積濾波器激活的能力,以限制它們在其激活圖中的擾動。例如,當濾波器的輸入受到擾動時,權重的L-1範數較小的濾波器將在輸出中產生微不足道的小擾動,因此被認爲沒那麼容易受到輸入擾動的影響。對於L∞-範數的通用對抗輸入,圖2a顯示了CaffeNet [25]和GoogLeNet [62]的排名(使用提出的L1-範數排名)conv-1濾波器激活的對抗噪聲上限。圖2b顯示了在相應的DNN濾波器激活中對抗性噪聲的相應觀測到的L∞範數。我們可以看到,基於||W||1的排名與濾波器輸出中引起的擾動程度(噪聲擾動的最大量)具有很好的相關性。網絡中的其他卷積層也可以進行類似的觀察。

圖2 在CaffeNet [25]和GoogLeNet [62]第一層的卷積濾波器(使用我們的L1-norm排名度量,從最弱到最不脆弱)的激活圖中觀察到的通用對抗性噪聲的L∞範數 。 L∞-範數攻擊用於ξ≤10,即||r||∞≤10。(a)DNN在排序conv-1濾波器激活中的對抗性噪聲上限(公式2)。 (b)在DNN的排序conv-1濾波器激活中觀察到對抗性噪聲的L∞範數。


        在圖3中,我們評估了在這種排名的濾波器中掩蓋對抗性噪聲對CaffeNet [25],VGG-16 [59]和GoogLeNet [62]的top-1準確性的影響。具體來說,我們從ImageNet [9]訓練集中隨機選擇1000個圖像的子集(每個類別1個圖像),並通過添加L∞-範數通用對抗性擾動來生成對抗性擾動圖像[38]。對於CaffeNet,GoogLeNet和VGG-16,乾淨圖像的top1精度分別爲0.58、0.70和0.69。同樣,對於CaffeNet,GoogLeNet和VGG-16,相同子集的對抗性擾動圖像的top1精度分別爲0.10、0.25和0.25。在50%最脆弱的過濾器激活中掩蓋對抗性擾動可顯着改善DNN性能,從而使CaffeNet,GoogLeNet和VGG-16的top-1精度分別爲0.56、0.68和0.67,並驗證了我們提出的選擇性特徵再生方案。有關更高層的類似實驗,請參見補充材料中的圖1。

圖3.對CaffeNet [25],GoogLeNet [62]和VGG-16 [59]的第一層進行排序的卷積濾波器激活中掩蓋L∞-範數通用對抗性噪聲的效果,在ImageNet的1000個圖像子集上進行了評估 [9]訓練集。 對於CaffeNet,GoogLeNet和VGG-16,無擾動圖像的top1acc分別爲0.58、0.70和0.69。 類似地,CaffeNet,GoogLeNet和VGG-16的無噪聲掩蓋的對抗性擾動圖像的top-1精度分別爲0.1、0.25和0.25。 在排名僅50%的濾波器激活中掩蓋噪聲,可以恢復所有三個DNN的大部分精度損失。

 

4.2彈性特徵再生防禦

        我們提出的防禦措施如圖4所示。我們學習了任務驅動的特徵恢復轉換(即特徵重新生成單元),用於對抗性輸入嚴重破壞的卷積濾波器激活。我們的特徵再生單元不會修改基線DNN的其餘激活。在文獻[4]中已經探索了一種類似的方法來學習校正變換,以使網絡對圖像模糊和加性高斯白噪聲更具彈性。
        令Sl代表由DNN的第l層中的卷積濾波器的索引組成的集合。此外,令Slreg爲我們希望再生的過濾器的索引集(第4.1節),令Sladv爲激活不用再生的過濾器的索引集(即Sl = Slreg∪Sladv)。如果ΦSlreg表示在第l層中重新生成的卷積濾波器輸出,則我們的第l層中的特徵再生單元將在以下條件下執行特徵再生變換Dl(·):


        其中u是卷積濾波器第l層的無擾輸入,r是作用於u的擾動。在等式3和4中,‘’約等於號‘’基於分類精度的相似性,表示特徵被恢復以重新獲得原始的無擾動激活圖的分類精度的意義上。等式3迫使Dl(·)進行任務驅動的特徵再生,以恢復DNN的精度損失,而等式4確保在沒有任何額外的對抗性擾動檢測器的情況下,不會降低未擾動激活的預測精度。我們將Dl(·)(即特徵再生單元)實現爲淺層殘差塊[18],它由兩個堆疊的3×3卷積層夾在一對1×1卷積層和一個skip連接之間。 D1(·)是使用基線網絡通過反向傳播的目標損失來估計的,請參見圖4,但是與基線網絡相比,可訓練參數明顯更少。

圖4 彈性特徵再生防禦:首先使用各自的權重過濾器對基線DNN(圖中頂部)中的卷積濾波器激活進行排序,根據其易於受到對抗性噪聲影響的程度(第4.1節)。 對於每個要考慮的層,我們都使用一個特徵再生單元,該單元由一個殘差塊和一個單跳連接(4層)組成,僅將最具對抗性的敏感激活再生爲彈性特徵,以恢復基線DNN失去的準確性, 同時保持其餘過濾器激活不變。 我們使用與基準DNN相同的目標損失,在每個mini-batch中的乾淨和擾動圖像上訓練這些單元,以使基準DNN的所有參數在訓練過程中保持不變。

        給定一個針對圖像分類任務進行了預訓練的L層DNNΦ,則Φ可以表示爲將網絡輸入x映射到N維輸出標籤矢量Φ(x)的函數,如下所示:


        其中Φl是表示第l個DNN層的映射函數(卷積濾波器組後跟非線性),而N是DNN輸出的維度(即類別數)。在不失一般性的前提下,在部署了一個特徵再生單元作用於第l層中由Slreg表示的一組濾波器上運行,其結果爲:


        其中Φlreg表示第l層的新映射函數,因此Dl(·)僅重新生成過濾器子集ΦSlreg的激活,而所有其餘過濾器激活(即ΦSladv)保持不變。如果Dl(·)由θl參數化,則特徵再生單元可以通過最小化來訓練:


        其中L是基準DNN的相同目標損失函數(例如,交叉熵分類損失),yk是第k個輸入圖像xk的目標輸出標籤,K表示訓練集中的圖像總數,包括乾淨和擾動的圖像。由於我們在訓練期間同時使用了乾淨的圖像和擾動的圖像,因此公式7中的xk表示乾淨的圖像或對抗擾動的圖像。
        在圖5中,我們可視化了受各種通用擾動干擾的DNN特徵圖以及由我們的特徵再生單元所再生的相應特徵圖,這些特徵圖僅在UAP [38]攻擊樣本中進行了訓練。與無擾動特徵圖(乾淨)相比,對抗性擾動圖像的相應特徵圖(行1)具有明顯可見的僞像,這些僞像反映了圖像主要部分的通用擾動模式。相比之下,由我們的特徵再生單元(第2行)再生的特徵圖有效地抑制了這些對抗性擾動,保留了乾淨特徵圖的對象區分屬性,並且對於未知的攻擊也具有魯棒性(例如,NAG [44], GAP [51]和sPGD [45]),如圖5和表5所示。

圖5.在DNN特徵圖中,特徵再生單元掩蓋對抗性擾動的有效性,用於受到通用擾動(UAP [38],NAG [44],GAP [51]和sPGD [45])擾動的圖像。 對於VGG-16的conv1_1層中的單個過濾器通道,可以獲得無擾動的特徵圖(純淨),不同的對抗性擾動的特徵圖(行1)和由特徵再生單元再生的相應特徵圖(行2)[59], 以及特徵圖中小區域的放大圖(黃色框)。 特徵再生單元僅在UAP [38]攻擊示例上受過訓練,但是在抑制由看不見的攻擊(例如NAG [44],GAP [51]和sPGD [45])產生的對抗僞像方面非常有效。


4.3生成合成擾動       

        基於訓練的方法容易出現數據過度擬合的情況,尤其是在訓練數據稀缺或多樣性不足的情況下。爲了避免過度擬合,使用現有的攻擊算法(例如[38、44、51、45])生成各種對抗性擾動(≥100)可能會在計算上受到阻礙。我們提出了一種快速方法(算法1),使用任何現有的通用攻擊生成方法([38、44、51、45 ])可以從一小部分對抗性擾動V⊆Rd構造合成的通用對抗性擾動。從將合成擾動vsyn設置爲零開始,我們迭代地選擇一個隨機擾動vnew∈V和一個隨機比例因子α∈[0,1]並更新vsyn,如下所示:


        其中t是迭代次數。重複該過程直到vsyn的L2-範數超過閾值η。我們將閾值η設爲集合V中擾動的最小L2-範數,其中t是迭代次數。

        與Akhtar等人的方法不同。 [1],它使用沿着預先計算的對抗方向的迭代隨機遊走,所提出的算法具有兩個明顯的優點:

        相同的算法可用於不同類型的攻擊準則,而無需進行任何修改,並且2)公式8(算法1中的步驟5)自動確保擾動的L∞範數不違反L∞範數的約束,因此,不需要額外的步驟,例如計算單獨的擾動單位矢量,並確保所產生的擾動強度小於ξ。

5.評定
        在實驗中,我們將ImageNet驗證集(ILSVRC2012)[9]用於所有50000張圖像和sigle crop evaluation(除非另有說明)。我們所有的實驗都是使用Caffe [21]實現的,對於每一次測試攻擊,我們都使用公開提供的代碼。我們根據top-1精度和Akhtar等人提出的恢復精度 [1]報告了我們的結果。給定包含乾淨圖像的Ic集和包含相等數量的乾淨和擾動圖像的Ip / c集,恢復精度由下式給出:

        其中acc(·)是top1精度。我們使用通用對抗攻擊(UAP)攻擊[38]進行評估(除非另行指定),並使用從ImageNet隨機選擇的10000個保留圖像集來計算每個網絡5個獨立的通用對抗擾動。 每個擾動的虛假率下限爲0.8,而同一DNN的任何兩個擾動之間的最大歸一化內積上限爲0.15。

5.1防禦訓練方法
        在我們提出的防禦中(圖4),僅需訓練特徵再生單元的參數,並更新這些參數以最小化方程7給出的代價函數。儘管我們期望防禦模型的預測性能通過更高的再生率(卷積過濾器激活重生的佔比)來改善,我們僅在一層中再生了50%的卷積過濾器激活,並限制了部署的特徵再生單元的數量(每層1個)min(#DNN層,6)1。 使用算法1,我們從25個原始擾動的集合V中生成2000個合成擾動[38],並使用標準的SGD優化器在單個Nvidia Titan-X上訓練特徵再生單元,動量爲0.9,重量衰減爲0.0005。 ImageNet訓練集的4個epoch[9]。 在每個epoch之後,初始學習率爲0.1,學習率下降10倍。 在對防禦模型進行了上述概述的訓練之後,我們可以通過對防禦進行額外的對抗性擾動來進一步迭代防禦訓練,從而確保對防禦防禦的次要攻擊具有魯棒性(第5.2.5節) )。

5.2分析和比較

5.2.1 DNN架構的穩健性
        表1列出了白盒(用於生成和測試攻擊的同一網絡)和黑盒(經過測試的網絡)下各種DNN的對抗擾動測試圖像的top-1準確性(無防禦)以及我們爲各DNN提出的防禦建議與用於生成攻擊的網絡不同)。由於普遍的對抗性攝動可能是雙重的,因此在黑盒設置下,我們針對針對不同網絡所產生的攝動評估了目標DNN防禦(針對目標DNN的攻擊進行了防禦訓練)。基準DNN的Top-1準確性會受到白盒和黑盒攻擊的嚴重影響,而我們提出的防禦措施不僅能夠有效地阻止白盒攻擊,而且還能夠推廣到針對其他網絡構建的攻擊而無需進一步訓練(表1)。由於不同的DNN可以在其特徵空間中共享常見的對抗方向,因此我們的特徵再生單元將學習如何針對看不見的數據對這些方向進行規範化,從而防禦黑盒攻擊。


5.2.2攻擊規範的穩健性
        在這裏,我們評估了針對L∞範式和L2範式UAP [38]攻擊的防禦魯棒性。由於有效的防禦不僅必須針對敵方圖像恢復DNN精度,而且還必須保持對乾淨圖像的高精度,因此我們使用恢復精度(公式9)來衡量對抗防禦的魯棒性(表2和3)。而阿赫塔爾等。 [1](PRN和PRN + det)僅報告針對UAP攻擊的防禦結果[38],我們還將結果與像素域防禦(例如,像素偏轉(PD [52])和高級制導降噪器(HGD))進行比較[31]),使用JPEG壓縮(JPEG comp.[10])或基於DNN的壓縮(例如Feature Distillation(Feat.Distill[33]))的防禦,使用一些對抗訓練的變體,例如Feature Denoising(FD [ 66])和標準對抗訓練(Adv.tr. [35])。
        在表2中,我們報告了針對各種DNN的L∞-範數UAP攻擊[38]的結果,並表明,對於所有網絡,我們提出的防禦性能優於所有其他防禦2,其恢復準確度最高(98.2%),低於Res152 [18]實現。我們的特徵再生單元經過L∞範式攻擊示例(相同範式評估)的訓練。即使沒有擾動檢測器,我們的防禦也可以通過Akhtar等人的擾動檢測器(PRN + det)勝過現有防禦。 [1]適用於所有網絡。類似地,對於Res152 [18],我們的對抗訓練防禦能力(​​FD [66],Adv.tr[35])和像素降噪器(PD [52],HGD [31])的表現超過10%。在表3中,我們還評估了針對∞∞範式攻擊訓練的防禦如何防禦針對φ2範式攻擊的防禦(交叉範式評估)。我們的特徵再生單元能夠有效地通用化,甚至可以進行跨規範攻擊,並且對於大多數DNN而言,其性能均優於其他所有防禦。

5.2.3更強的攻擊擾動(ξ> 10)
        儘管我們在訓練過程中使用攻擊擾動強度ξ= 10,但在表4中,我們以較高的擾動強度評估了當攻擊者違反攻擊威脅模型時防禦的魯棒性。與基準DNN(無防禦)以及PRN [1]和PD [52]相比,我們提出的防禦在防禦更強擾動方面更爲有效,即使在其他情況下也比其他防禦性能高出近30%攻擊強度是訓練我們的防禦能力的兩倍以上。儘管防禦穩健性由於看不見的較高干擾強度而降低,但與現有防禦相比,我們的防禦更輕鬆地處理了此下降情況,並顯示了自攻強度的更好泛化能力。我們還注意到,在ξ= 25時,對抗性擾動不再是視覺上不可察覺的。

5.2.4泛化到看不見的普遍攻擊
        儘管所提出的方法有效地防禦了UAP [38]攻擊(表1-4),但我們也評估了其對其他未見到的普遍攻擊的魯棒性,而無需進行額外的針對攻擊的培訓。請注意,[1]和[45]不涵蓋此實驗設置。由於文獻中現有的攻擊是針對特定DNN量身定製的,因此我們使用CaffeNet [25]和Res152 [18] DNN來覆蓋各種通用攻擊,例如快速功能傻瓜(FFF)[43],用於生成對手的網絡(NAG)[44],奇異傻瓜(S.Fool)[23],生成式對抗性擾動(GAP)[51],通用可分配的無數據通用對抗性擾動(G-UAP)[42]和隨機PGD( sPGD)[45]。
        我們的防禦僅接受UAP [38]攻擊樣本的訓練,就能有效防禦所有其他通用攻擊,並且勝過所有其他現有防禦(表5)。即使是針對更強大的通用攻擊(如NAG [44]和GAP [51]),我們也比包括PRN [1]在內的所有其他防禦性能都要好,後者在類似的UAP [38]攻擊示例中也經過訓練,幾乎提高了10%。根據表5中的結果,我們表明,特徵再生單元學習的變換可有效地在各種擾動模式中進行泛化(圖5)。請注意,我們是第一個在通用攻擊中顯示出如此廣泛概括的人。

 

5.2.5對次級白盒攻擊的魯棒性
        儘管在實際情況下,攻擊者可能並不完全瞭解防禦或什至不完全瞭解防禦,但出於完整性考慮,我們還評估了我們針對防禦中的白盒攻擊(二次攻擊)提出的防禦,即,攻擊者擁有完全訪問我們功能再生單元的梯度信息。我們使用UAP [38](在CaffeNet上)和sPGD [45](在Res152上)進行評估。
        圖6顯示了我們對這種二次UAP [38]攻擊的防禦的魯棒性,以期在CaffeNet [25] DNN的防禦中實現0.85的目標愚弄率。這樣的攻擊可以在不到2個攻擊時期內輕鬆收斂(達到目標虛假率)到基準DNN,最終達到0.9的最終虛假率。類似地,我們觀察到,即使PRN [1]也容易受到二次UAP [38]攻擊,當對手可以訪問其擾動整流網絡的梯度信息時,它們的欺騙率達到0.87。相比之下,使用我們的防禦模型和迭代對抗示例訓練(如第5.1節所述),白盒子對手可以實現的最大愚弄率僅爲0.42,這比針對PRN的愚弄率低48%[ 1],即使攻擊了我們的防禦系統600個攻擊紀元。同樣,在表6中,使用與[45]中概述的相同攻擊設置,我們針對Res152 [18]評估了通過利用防禦和基線DNN的梯度信息計算出的白盒sPGD [45]攻擊。 ]。如表6所示,我們使用針對基準DNN和防禦計算的sPGD攻擊示例訓練的防禦能力,對隨後的sPGD白盒攻擊具有強大的抵抗力。


6.結論

        我們表明,在一些選定的D​​NN激活中掩蓋對抗性噪聲會顯着改善其對抗性。爲此,我們提出了一種新穎的選擇性特徵再生方法,該方法可以有效地防禦普遍性干擾,這與現有的對抗防禦不同,後者可以對輸入圖像進行預處理以去除對抗噪聲,並且/或者通過對抗訓練來重新訓練整個基線DNN 。我們表明,卷積濾波器核權重的L1-範數可以有效地用於對卷積濾波器進行對抗擾動的排序。僅重新生成幾個DNN層中排名最高的50%具有對抗性的功能,就足以恢復DNN的魯棒性並勝過所有現有防禦。通過與現有的最新防禦進行比較,我們驗證了所提出的方法,並在不同的DNN,攻擊規範甚至看不見的攻擊擾動強度之間顯示了更好的概括性。與現有方法相反,我們的防禦僅針對一種通用對抗性攻擊示例進行了有效訓練,可以防禦其他看不見的通用攻擊,而無需進行額外的針對攻擊的培訓。我們希望這項工作能夠鼓勵研究人員設計出具有對抗性的,魯棒的DNN架構和訓練方法,以產生具有1-範數小的卷積濾波器內核。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章