【池化選擇】全局最大池化和全局平均池化的實驗分析

根據MIT的 Learning Deep Features for Discriminative Localization論文中的描述,在使用類響應圖class activation mapping (CAM) 對比全局平均池化Global average pooling (GAP) vs 全局最大池化global max pooling (GMP):

類響應圖示例:
在這裏插入圖片描述
圖中高亮區域就是根據label的注意圖高響應區域

具體得到的這個相應區的方法是

在這裏插入圖片描述
1) 訓練主幹網絡得到特徵圖
2) 進行全局池化(圖中用的GAP,也可以使用GMP)
3) 對全局池化的結果做全連接得到全連接參數 w
4) 把全連接參數作爲權重對特徵圖進行加權求和 上圖最下方的公式

根據對圖像的研究發現,不同的類別的特徵圖相應區域不一樣,原始的卷積網絡具有一定的定位能力。而且如下圖所示,不同類別的注意力區域也大不相同也呈現出非常準確的特徵區域。

模型可以預測出不同類別概率,根據類注意圖發現。即使是錯誤預測的類別,比如上圖預測狗狗預測成了人,但是人也在圖中特徵區域也是定位在了人的身上。

說了這麼多就是論證GAP和GMP具有定位能力。那麼具體那個好呢

先看一組實驗
在這裏插入圖片描述

我們發現相比GAP,GMP在同一個類別上的top1 和top5 的損失都有所升高。

原因分析:
GAP 是對全局求平均,GAP LOSS 促使網絡區分辨每個類別的程度,找到所有的目標可區分區域進行預測。
GMP 是對全局求最大,只去找分數最高的那個區域。而去忽略其他分數低的區域

因此在定位方面,GAP 比GMP要好

GAP outperforms GMP for localization.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章