Universal adversarial perturbations(CVPR 2017)
- 文章簡介:
本文主要是介紹了一種universal的擾動,能讓大部分圖片加入該噪聲後就能被誤分類,擾亂一個新的數據點只需要向圖像添加一個普遍的擾動(不需要解決優化問題/梯度計算)。其示意圖如下
- Norm:
- 2-範數:
- 無窮範數:
結果如下:其中的Val.是不參與universal擾動的計算的,可以看到性能相當好
-
Contribution:
- 證明了state-of-the-art模型中存在universal image-agnostic擾動
- 提出了一種尋找universal擾動的算法
- 發現universal擾動有一定的泛化能力:只用一個非常小的training points就能愚弄一張新圖像
- 我們證明這種擾動不僅在圖像上是普遍存在的,而且在深度神經網絡上也能很好地推廣。因此,這種擾動在數據和網絡體系結構方面具有雙重普遍性。
- 通過研究決策邊界不同部分之間的幾何相關性,解釋和分析了深度神經網絡對普遍擾動的高脆弱性。
-
目標函數
其中是圖像的分佈,是我們要加的universal擾動
更詳細地說,如果當前的不足夠擾動,就會再去尋找一個,其要解決的優化問題爲
爲了滿足約束,作者將投影到一個半徑爲的ball上,具體爲:
下面該式返回的是, 其實簡單地說,其實就是用一個個半徑爲的ball去儘量接近。[注意這個ball不是圓形球的意思]
有趣的是,在實際操作中,中數據點的數量並不需要很大就足夠一個對整個分佈有效的普遍擾動。最終算法爲:
- Universal擾動
- 同一網絡的不同初始化得到的擾動結果不唯一,雖然有點相似
- 不同網絡得到的擾動結果也不一樣
-
The size of training set:
- 如果用於計算擾動的訓練集只有500張圖,則可以成功攻擊驗證集中30%的圖片
- 如果用於計算擾動的訓練集有1000張圖,則可以攻擊在驗證集中更多的未見過的圖片,甚至在這1000張圖中都沒有出現過那個類別的圖片
-
Cross-model universality:
證明了本文提出的universal擾動是doubly-universal
-
Adversarial trainning robust
作者將VGG-F模型進行fine-tune,即原訓練集有50%的概率被加上universal擾動,然後訓練了5個epoch。訓練完後,再用Algorithm 1在fine-tune後的模型上計算universal擾動,結果在驗證集上的成功率從93.7%到了76.2%。爲了試驗多次fine-tune的用處,作者又重複了上面這個流程,從10個另外的擾動繼續進行fine-tune,但是後面再進行攻擊時,成功率差不多還有80%,所以有一個結論: 簡單地處理無法對small universal擾動形成一定的免疫能力 -
奇異值:
奇異值的通俗理解(轉自知乎):奇異值往往對應着矩陣中隱含的重要信息,且重要性和奇異值大小正相關。每個矩陣A都可以表示爲一系列秩爲1的“小矩陣”之和,而奇異值則衡量了這些“小矩陣”對於A的權重。
作者計算了N矩陣與隨機矩陣的奇異值:
對這個圖我是這麼理解的:Index表示的是奇異值的排序位數,理所因當,第1個特徵值最大,後面遞減。可以發現的是,在曲線的開始階段,奇異值的變化幅度特別大,到了後面,曲線變得平穩。這就說明對於深度網絡而言,他的決策邊界存在一定的相關性和冗餘性。
- Hypothesize:
- 存在一個低維子空間包含自然圖像周圍區域中到決策邊界的大部分法向量。
爲了驗證這個假設,作者選取了前100個特徵向量所張成的子空間,然後從中選擇隨機向量(),發現居然能夠攻擊38%的圖片,從而驗證了假設(因爲原始空間生成的隨機擾動只能攻擊10%的圖片)
如果覺得我有地方講的不好的或者有錯誤的歡迎給我留言,謝謝大家閱讀(點個贊*我可是會很開心的哦)~