AugFPN:改進多尺度特徵學習用於目標檢測

Chaoxu Guo1, Bin Fan1, Qian Zhang2, Shiming Xiang1, and Chunhong Pan1
1NLPR,CASIA
2Horizon Robotics
1{chaoxu.guo, bfan, smxiang, chpan}@nlpr.ia.ac.cn
[email protected]

本文工作是基於Faster R-CNN 的改進,主要貢獻就是改進FPN,提出了AugFPN多尺度特徵學習模塊

Abstract

目前最先進的檢測器通常利用特徵金字塔來檢測不同尺度的目標。其中,FPN是多尺度特徵求和構建特徵金字塔的代表性作品之一。然而,其背後的設計缺陷阻礙了多尺度特徵的充分利用。本文首先分析了FPN中特徵金字塔的設計缺陷,然後提出了一種新的特徵金字塔結構AugFPN(AugFPN)。具體來說,AugFPN由三個部分組成一致性監控剩餘特徵增強軟RoI選擇。AugFPN通過一致性監督,縮小了特徵融合前不同尺度特徵之間的語義差距在特徵融合中,通過殘差特徵增強提取比率不變的上下文信息,以減少特徵映射在最高金字塔層次的信息丟失。最後,採用軟RoI選擇,在特徵融合後自適應地學習更好的RoI特徵。在Faster R-CNN中,用AugFPN代替FPN,分別以ResNet50和MobileNet-v2作爲骨幹網時,模型的平均精度分別提高了2.3和1.6個點。此外,當使用ResNet50作爲主幹時,AugFPN將RetinaNet提高了1.6個AP,FCOS提高了0.9個AP。將提供代碼。

                               

圖1。特徵金字塔網絡的三個設計缺陷:1)特徵求和前不同層次特徵之間的語義差異;2)最高金字塔層次特徵的信息丟失;3)啓發式RoI分配。 

1. Introduction

隨着深卷積網絡(ConvNets)的發展,圖像目標檢測取得了顯著的進展。已經提出了一些探測器[10、33、9、25、30、12、21、22],以穩步推進最先進的技術。在這些檢測器中,FPN[21]是一個簡單有效的兩級對象檢測框架。具體地說,FPN是在ConvNet的固有特徵層次上,通過將語義強的特徵從高層傳播到低層,建立一個特徵金字塔。

通過改進語義強的多尺度特徵,大大提高了目標檢測的性能。然而,FPN中的特徵金字塔中存在一些設計缺陷,如圖1所示。基本上,FPN中的特徵金字塔可以分爲三個階段:(1)特徵融合之前,(2)自頂向下的特徵融合,以及(3)特徵融合之後。我們發現每個階段都有一個內在缺陷,如下所述:

不同層次特徵之間的語義差異。在進行特徵融合之前,不同層次的特徵獨立地經過1×1卷積層以減少特徵通道,其中不考慮這些特徵之間的巨大語義間隙。由於語義信息不一致,直接融合這些特徵會降低多尺度特徵表示的能力。

最高層次特徵圖的信息丟失。在特徵融合中,特徵以自頂向下的方式傳播,低層特徵可以利用高層特徵的較強語義信息進行改進。然而,最高金字塔級別的特徵卻由於信道減少而丟失信息。通過結合全局池提取的全局上下文特徵[29],可以減輕信息丟失。但是,由於一幅圖像中可能出現多個目標,這種將特徵映射融合爲單一矢量的策略可能會丟失空間關係和細節。

RoIs的啓發式分配策略。在特徵融合後,基於一個特徵層次上的特徵網格對每個目標方案進行細化,並根據方案的規模進行啓發式選擇。然而,被忽略的其他層次的特徵可能有利於對象分類或迴歸。考慮到這個問題,PANet[24]彙集了所有金字塔級別的roi特性,並在將其與獨立的完全連接層相適應後,將其與max操作相融合。儘管如此,max-fusion會忽略響應較小的特性,這些特性可能也有幫助,但仍然無法充分利用其他級別的特性。同時,額外的全連通層顯著增加了模型參數。

本文提出了一種簡單而有效的特徵金字塔AugFPN,它集成了三個不同的組件來分別處理上述問題。首先,提出一致性監督機制,通過在這些特徵映射上實施相同的監督信號,使橫向連接後的特徵映射包含相似的語義信息。其次,利用比率不變自適應池提取不同的上下文信息,以殘差的方式減少特徵金字塔中最高層次特徵的信息丟失。我們將此過程命名爲剩餘特徵增強。第三,引入軟RoI選擇,更好地利用不同金字塔層次的RoI特徵,爲後續的位置細化和分類提供更好的RoI特徵。

在沒有鐘聲和哨聲的情況下,當使用ResNet50和ResNet101作爲主幹時,基於AugFPN的Faster R-CNN的平均精度(AP)分別比基於FPN的快2.3和1.7。此外,當骨幹網改爲MobileNet-V2時,AugFPN的總體性能提高了1.6ap,MobileNet-V2是一個輕量級的高效網絡。Augfpn 也可以擴展到一級探測器,只需稍作修改。用AugFPN代替FPN,可使RetinaNet和FCOS預期分別提高1.6和0.9倍,從而驗證了AugFPN的通用性。

我們的貢獻總結如下:

•我們揭示了FPN三個不同階段的問題,這些問題阻礙了多尺度特徵的充分利用。

•提出了一種新的特徵金字塔網絡AugFPN,分別用一致性監督、剩餘特徵增強和軟RoI選擇來解決這些問題。

•我們評估了在MS COCO上配備各種探測器和主幹的AugFPN,與基於FPN的探測器相比,它始終帶來重大改進。

2. Related Work

深目標探測器。現代的目標檢測方法幾乎遵循兩種模式,兩階段和一階段。作爲兩階段檢測方法[10,9,33,4,21,1,35,19,20,28]的開創性工作,R-CNN[10]首先使用選擇性搜索[37]生成區域建議,然後通過卷積網絡提取區域特徵來細化這些建議。爲了提高訓練和推理速度,SPP[13]和Fast R-CNN[9]首先提取整個圖像的特徵映射,然後分別用空間金字塔池和RoI池生成區域特徵。最後,用地區性的儀式來完善提案。Faster R-CNN[33]提出了一種區域建議網絡,並開發了一種端到端可訓練檢測器,顯著提高了性能,加快了推理速度。爲了追求目標檢測的尺度不變性,FPN[21]在卷積網絡固有特徵層次的基礎上構建了一個網絡內特徵金字塔,並根據區域建議的尺度在不同的金字塔層次上進行預測。RoI Align[12]通過解決RoI池的量化問題,在目標檢測和實例分割方面都有了很大的改進。可變形網絡[5,42]通過對目標的幾何結構建模,顯著提高了目標檢測的性能。Cascade R-CNN[1]將多級求精引入到更快的R-CNN中,從而實現對目標位置的更精確預測。

與兩級探測器相反,一級探測器[25、30、6、31、22、17、23、32、39、41]效率更高,但精確度更低。SSD[25]將錨箱密集地放置在多尺度特徵上,並基於這些錨進行預測。RetinaNet[22]利用類似於FPN的特徵金字塔作爲骨幹,並引入了一種新的focal loss來解決簡單和困難例子的不平衡問題。ExtremeNet〔41〕將目標檢測問題建模爲檢測目標的4個極值點。這些工作從不同的角度取得了重大進展。本文研究如何更好地開發多尺度特徵。

深入監督。深度監督[15,18,40,7]是解決梯度消失或增強中間層的特徵表示。Huang等人。[15] 通過在不同層次上同時進行訓練,將多個具有不同資源需求的分類器集成到一個單一的深層網絡中。PSPNet[40]在中間層引入了額外的像素級損失,以降低優化難度。最近Nas-FPN[7]在所有中間金字塔網絡之後附加了分類器和迴歸頭,目的是實現隨時檢測。與這些工作相反,我們將實例級的監督信號應用於橫向連接後的所有金字塔級別的特徵,目的是縮小它們之間的語義間隙,使特徵更適合後續的特徵求和。

上下文利用。有幾種方法證明了上下文在目標檢測[8,29,38]和分割[16,26,40]中的重要性。Deeplab-v2[3]提出了一種基於阿託羅斯卷積的多尺度上下文提取方法,PSPNet[40]利用金字塔池來獲得層次化的全局上下文,這兩種方法都大大提高了語義分割的質量。與之不同的是,我們採用比率不變的自適應池來產生不同的空間上下文信息,並利用它們以剩餘的方式減少特徵在最高金字塔層次的通道中的信息損失。

投資回報分配策略。FPN[21]從一個特定的金字塔級別彙集RoI特徵,根據RoI的規模選擇。然而,在這種策略下,兩個具有相似規模的方案可以被分配到不同的特徵級別,這可能會產生次優結果。爲了解決這個問題,PANet將來自所有金字塔級別的RoI特性彙集起來,並通過max操作將它們與完全連接的層獨立地進行調整後進行融合。PANet與我們的工作有着明顯的不同,我們提出了一種基於數據的自適應權值生成方法,並根據權值從各個層次吸收特徵。這樣可以更好地利用不同級別的功能。此外,我們的工作需要較少的參數,因爲不需要額外的完全連接層來適應RoI特性。

圖2。基於AugFPN的探測器的總體管線。(1) -(3)是AugFPN的三個主要組成部分:一致性監控、剩餘特徵增強和軟RoI選擇。爲簡單起見,不顯示特徵求和後的3×3卷積層。 

3  方法論 

AugFPN的總體框架如圖2所示。在FPN[21]的設置之後,用於構建特徵金字塔的特徵被表示爲{C2、C3、C4、C5},它們對應於特徵層次w.r.t.中具有跨距{4、8、16、32}像素的特徵映射。{M2、M3、M4、M5}是橫向連接後特徵通道減少的特徵。{P2,P3,P4,P5}是由特徵金字塔生成的特徵。AugFPN的三個組成部分將在下面的小節中討論。

3.1 一致監督

FPN利用在網絡中生成不同分辨率的特徵映射的特徵層次結構來構建特徵金字塔。爲了集成多尺度的上下文信息,FPN通過自頂向下的路徑進行上採樣和求和,融合不同尺度的特徵。然而,不同尺度的特徵包含不同抽象層次的信息,它們之間存在很大的語義鴻溝。雖然FPN所採用的方法簡單有效,但是融合多個語義間隙較大的特徵會導致一個次優特徵金字塔。這激勵我們提出一致的監督,在融合前對多尺度特徵實施相同的監控信號,目的是縮小它們之間的語義差距。具體來說,我們首先基於來自主幹的多尺度特徵{C2,C3,C4,C5}構建特徵金字塔。然後,區域建議網絡(RPN)被附加到產生的特徵金字塔{P2、P3、P4、P5}中以生成大量roi。爲了進行一致的監控,每個RoI被映射到所有的特徵級別,RoI Align[12]獲得了{M2、M3、M4、M5}的每個級別的RoI特徵。之後,多個分類和盒迴歸頭連接到這些特徵,以產生輔助損失。這些分類和迴歸頭的參數在不同的層次上共享,除了相同的監督信號外,還可以進一步迫使不同的特徵映射學習相似的語義信息。爲了更穩定的優化,使用權重來平衡由一致性監督和原始損失所產生的輔助損失。形式上,rcnn水的最終損失函數公式如下:

                           

     

                               

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章