Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)
-
文章簡介:
作者提出一種全新的black-box攻擊方法Curls&Whey,該方法可以是迭代軌跡多樣化並且可以壓縮noise的幅度,此外,將插值算法與迭代攻擊相結合,顯著降低了balck-box場景中目標攻擊的難度- 類型: black-box(white-box也可)
- Dataset: Imagenet. Tiny-Imagenet(used in NIPS 2018 Adversarial Vision Challenge)
- Strength:即使對ensemble models和adversarial trained models也有非常強的可遷移性
- norm:L2
-
Iterative attacks:
- 優點:
- iterative方法在攻擊效果和生成對抗樣本的效率上有比較好的平衡
- iterative方法在white-box場景下表現非常好,已經可以保證100%可遷移性
- 缺點:
- 在black-box情況下,不同模型的決策邊界是相差很遠的。迭代軌跡一般來說是沿着梯度上升的方向單向搜索的,如果給予的noise量級比較小,可能跨越決策邊界會存在困難。這也削弱了對抗樣本的遷移能力。
- 雖然noise大小決定了攻擊方法的性能,但是迭代攻擊產生的對抗樣本包含一定的冗餘噪聲,僅通過增加迭代次數無法完全消除。
- 在white-box條件下,由於在計算梯度時用到了高斯noise,所以作者提出的方法的noise量級會稍大與I-FGSM,但是會低於vr-IGSM,這說明Whey優化確實有用。
- 優點:
-
Contribution:
- 提出了名爲Curls iteration的black-box攻擊方法,通過結合梯度上升和梯度下降的方向,其能增加迭代軌跡的多樣性並且能生成可遷移性更強的對抗樣本。
- 提出了利用擾動魯棒性來壓縮noise量級的Whey optimization
- 將Curl&Whey應用於targeted attack,顯著地提升了iterative方法在black-box場景下的攻擊效果(長期以來,黑盒場景中的targeted attack被認爲是難以處理的,因爲替代模型和目標模型之間在決策邊界和分類空間上的差異阻礙了對抗樣本從源類滲透到目標類)
-
Curl&Whey black-box attack
- Curls iteration: 在subtitute model的loss function的梯度上升和梯度下降兩個方向上都進行迭代,這樣做得好處就是可能以更小的距離跨越target model的決策邊界。從下圖可以看到,一開始沿着梯度下降的方向,然後再沿着梯度上升的方向,即圖中的紫色軌跡,顯然比一直採用梯度上升的方向所需要的距離更小。並且有效地提高了對抗樣本的多樣性和可遷移性。
其搜索過程如下(表示交叉熵)
1. 首先將原圖往梯度下降的方向更新一步(公式9)
2. 比較現有的交叉熵損失,如果這一步損失下降,則說明還沒到local minima,則調整的方向
3. 往現在的的方向更新一步,然後再跳到第2步在此基礎上,作者在每一輪迭代前後分別引入了兩種啓發式策略。對於一幅圖像,最接近的對抗樣本更有可能分佈在特徵空間中大致相同的方向。因此,作者記錄並更新了一張圖像中所有對抗樣本的平均方向,並在第一步計算每一輪的梯度時添加一個指向這個方向的向量:
公式(15)事實上是一個二分搜索的過程,這裏用的嵌套的定義方式。直接用語言描述的話就是:定義原始圖像爲左端點,當前對抗樣本爲右端點,在這兩點連成的線段上進行二分搜索,每次查詢線段中點是否爲對抗樣本。若中點是對抗樣本,則將中點設爲新的右端點;否則將中點設爲左端點。直到二分搜索次數用盡。
算法流程圖爲
-
Whey optimization:
- 目標是利用對抗性擾動的魯棒性來壓縮noise的量級,作者的做法是首先將對抗性擾動按像素值進行分組,並嘗試濾除每組噪聲。然後隨機抽取對抗樣本中的每個像素,逐步剔除冗餘噪聲。
- 通常iterative方法會在迭代次數滿足或者找到對抗樣本後結束,但是對抗樣本依然會存在冗餘的noise,所以whey的目標就是最小化noise的同時還能滿足他能成功攻擊target model
其中是原圖, 是對抗樣本, 是距離原圖最接近的對抗樣本。
- whey優化保持了noise-squeezing amplitude和squeeze次數之間的平衡。一次壓縮過多的噪音可能會使對抗樣本回到原來的類別。然而,increment squeeze使得優化不可能在有限的查詢數量內完成。一種折衷的解決方案是先將敵對噪聲分成若干組,然後逐組降低noise量級,其做法爲
- 在完成上面那一步後,whey將進行第二步(fine-grained)squezze, 按照概率使噪聲的某些pixel的值變爲0,其做法如下
- 總的算法流程爲:不知道P中有沒有排序過? 作者回復:"P是排過序的列表。通常做法是從像素值1迭代到255,因爲噪聲幅度小的像素點佔多數。"
-
Diminishing Marginal Effect on Iteration Steps
假設爲了減小noise的量級,每一步的步長與總的迭代次數成反比。以I-FGSM爲例,當迭代次數T增加1,則總的的noise量級爲(原文描述爲"when the number of iterations T increases by 1, the marginal gain for the decrease in the noise magnitude is", 翻譯有點困難。 作者回復:這裏的 marginal gain 借用了經濟學中的“邊際效益”概念,本意是“是指每新增(或減少)一個單位的商品或服務,它對商品或服務的收益增加(或減少)的效用”。在這裏是指“在當前迭代步數下,當繼續增加迭代步數時,總的噪聲幅度能夠進一步減少的量”。)
總得來說,上面這個公式考慮了每一步的損失,並通過取平均值再進行做差的方法,使得下一步的迭代軌跡趨於一致、平滑,並逐漸收斂。如下圖:可以發現迭代次數變多,跨越決策邊界所需要的距離也越短,軌跡更光滑。
- targeted attacks
在black-box場景下,進行targeted attack是非常困難的,因爲target model和substitute model之間的梯度值是存在差異的。作者選擇利用本文提出的方法進行target attack,其具體方法是
1. 收集被target model誤分類爲target類別的且比較合理的對抗的樣本
2. 使用二分搜索(應該是類似於公式15中的BR),找一個合適的對抗樣本(需要滿足仍然被分爲target類別)
3. 使用來指導進行第一次梯度上升,公式21看似是在進行梯度下降,但要注意的是是對抗樣本,其損失必然大於的損失,所以往方向進行梯度下降等價於在對進行梯度上升
4. 通過上面那一步,我們就將原始圖像導向了目標類別,然後接下來執行Curl&Whey進行untargeted attacks
其中是進行完二分搜索後的插值係數。
在black-box情況下的targeted attack情況下的效果:可以發現該方法能夠做到非常小的L2距離
現有的三種Iterative攻擊難以實現有針對性的錯誤分類。
與boundary attack、pointwise attack、vanilla interpolation三種decision-based的攻擊相比,該方法的噪聲幅度也有了明顯的降低。
如果覺得我有地方講的不好的或者有錯誤的歡迎給我留言,謝謝大家閱讀(點個贊我可是會很開心的哦)~