多尺度特徵的融合操作

在目標檢測和分割的任務中,我們都喜歡用多尺度 特徵融合操作來提高準確率。以語義分割爲例,大家在看到U-Net 以後想到的第一個自認爲的創新就是加上 ASPP 結構。加上一個特徵金字塔結構。然後做實驗發現整個效果還是不錯的。其實這個特徵金字塔的結構就是一個多尺度特徵融合的例子。在這裏也可以證明了多尺度特徵融合在深度學習中的好處。那爲什麼多尺度融合有效果呢。

        我們知道現在的檢測和分割網絡基本都喜歡用卷積神經網絡通過逐層抽象的方式來提取目標的特徵,我們可以知道高層網絡的感受野比較大,語義信息表徵能力強,但是特徵圖的分辨率低,幾何信息的表徵能力弱(空間幾何特徵細節缺乏);低層網絡的感受野比較小,幾何細節信息表徵能力強,雖然分辨率高,但是語義信息表徵能力弱。高層的語義信息能夠幫助我們準確的檢測或分割出目標。因此我們在深度學習中把這些特徵全部加在一起對於檢測和分割都很有效果。

上圖就是一個典型的多尺度融合網絡結構。下采樣倍數小(一般是淺層)的特徵感受野小,適合處理小目標,小尺度map(深層)分辨率信息不足不適合小目標在yolov3中對多尺度檢測的理解是,1/32大小的特徵圖(深層)下采樣倍數高,所以具有大的感受野,適合檢測大目標的物體,1/8的特徵圖(較淺層)具有較小的感受野,所以適合檢測小目標。對於小目標,小尺度feature map無法提供必要的分辨率信息,所以還需結合大尺度的feature map,這也就是在進行分割和檢測網絡中如果進行多次的下采樣操作很容易到底小目標的丟失。

其中主要的網絡結構可以分爲以下幾種:(1) 多尺度輸入。(2) 多尺度特徵融合。(3) 多尺度特徵預測融合。(4) 以上方法的組合

這個方法來自AI 不惑境

多尺度輸入:這種方法基本就是那種圖像金字塔的結構,就是對輸入的圖像進行操作,得到不同的大小的圖像分辨率,然後再把這些圖像進行組合輸入進去。方法如下圖

這種就是一個典型的多尺度圖像融合的方法。

多尺度特徵融合:這個方法主要是對特徵不同階段的特徵進行組合在一個而得到的結果。這種方法也好理解

看下面的幾個結構

這是兩個比較經典的不同尺度的特徵融合方法。還有一個比較經典的就是ASPP網絡

多尺度的特徵預測:這種方法主要是對不同的特徵的進行預測輸出然後把這個輸出的結果進行組合得到一個最後的輸出結果。這種方法在檢測中應用的比較多。

其實這種多尺度的特徵融合的方法對於檢測和分割網絡的效果提升還是比較明顯的。如果有機會大家也都可以試試。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章