檢測器:用遞歸特徵金字塔和可切換的阿託洛斯卷積檢測物體

Abstract

許多現代的目標探測器都採用了“三思”機制,表現出了優異的性能。本文將此機制應用於目標檢測的主幹設計中。在宏層次上,我們提出了遞歸特徵金字塔,它將來自特徵金字塔網絡的額外反饋連接合併到自下而上的主幹層中。在微觀層面上,我們提出了可切換的阿托拉斯卷積,該卷積以不同的阿托拉斯速率卷積特徵,並使用開關函數收集結果。將它們結合在一起形成檢測器,大大提高了目標檢測的性能。在COCO測試開發平臺上,檢測器實現了目標檢測54.7%的box-AP狀態,實例分割47.1%的mask-AP狀態,全景分割49.6%的PQ狀態。https://github.com/joe-siyuan-qiao/DetectoRS

1. Introduction

爲了檢測物體,人類的視覺感知通過反饋連接傳遞高級語義信息,選擇性地增強和抑制神經元的激活[2,19,20]。受人類視覺系統的啓發,計算機視覺中的二次視覺和二次思維機制已經被實例化,並顯示出優異的性能[5,6,58]。許多流行的兩級目標檢測器,如快速R-CNN[58],首先輸出目標建議,然後根據這些建議提取區域特徵來檢測目標。按照同樣的方向,Cascade R-CNN[5]開發了一個多級檢測器,在該檢測器中,隨後的檢測器頭被訓練成更具選擇性的例子。這種設計思想的成功激發了我們在目標檢測的神經網絡主幹設計中對其進行探索。特別是,我們在宏觀和微觀兩個層面上都採用了這種機制,從而使我們提出的探測器大大提高了目前最先進的目標探測器HTC[7]的性能,同時推理速度保持不變,如表一所示。

在宏觀層面上,我們提出的遞歸特徵金字塔(RFP)是建立在特徵金字塔網絡(FPN)之上的[44],它將來自FPN層的額外反饋連接合併到自底向上的主幹層中,如圖1a所示。將遞歸結構展開到順序實現中,我們獲得了一個目標探測器的主幹,它可以觀察兩次或更多的圖像。類似於級聯R-CNN中的級聯檢測器頭,我們的RFP遞歸地增強FPN以生成越來越強大的表示。類似於深度監控的網絡[36],反饋連接將直接從檢測器頭部接收梯度的特徵帶回自底向上主幹的低水平,以加快訓練和提高性能。我們提議的RFP實現了一個連續的兩次查找和思考的設計,自下而上的主幹和FPN運行多次,其輸出特性依賴於前面步驟中的特性。

在微觀層面上,我們提出了可切換的阿託洛斯卷積(SAC),它以不同的阿託洛斯速率卷積相同的輸入特徵[11,30,53],並使用開關函數收集結果。圖1b示出SAC的概念的圖示。開關功能是空間相關的,即特徵映射的每個位置可能有不同的開關來控制SAC的輸出。爲了在檢測器中使用SAC,我們將自底向上骨幹網中的標準3x3卷積層全部轉換爲SAC,大大提高了檢測器的性能。以前的一些方法採用條件卷積,例如[39,74],它也將不同卷積的結果合併爲單個輸出。不同於那些體系結構要求

爲了從頭開始訓練,SAC提供了一種機制,可以方便地轉換預訓練的標準卷積網絡(例如ImageNet pretrained[59]檢查點)。此外,在SAC中使用了一種新的重量鎖定機制,其中除了可訓練的差異外,不同的萎縮卷積的重量是相同的。

結合建議的RFP和SAC結果在我們的探測器。爲了證明它的有效性,我們在具有挑戰性的COCO數據集[47]上將檢測器納入了最先進的HTC[7]。在COCO測試開發中,我們報告了用於對象檢測的box AP[22]、用於實例分割的mask AP[26]和用於全景分割的PQ[34]。以ResNet-50[28]爲主幹的探測器顯著提高HTC[7]7.7%的box-AP和5.9%的mask-AP。此外,爲我們的探測器配備ResNeXt-101-32x4d[71]可實現最先進的54.7%盒式AP和47.1%掩模AP。加上DeepLabv3+[14]以Wide-ResNet-41[10]爲骨幹的素材預測,探測器爲全景分割創造了49.6%的PQ新記錄。

2. Related Works

目標檢測。目標檢測方法主要有兩大類:一級方法,如[45、50、56、60、80、81]和多級方法,如[5、7、9、25、27、58]。多級探測器通常比一級探測器更靈活、更精確,但也更復雜。在本文中,我們使用一個多級探測器HTC[7]作爲基線,並與這兩類探測器進行了比較。

多尺度特徵。我們的遞歸特徵金字塔是基於特徵金字塔網絡(FPN)[44],一個有效的利用多尺度特徵的目標檢測系統。以前,許多目標檢測器直接使用從主幹網提取的多尺度特徵[4,50],而FPN則採用自上而下的路徑來順序組合不同尺度的特徵。PANet[49]在FPN的頂部添加另一個自底向上的路徑。STDL[82]提出利用尺度轉換模塊的跨尺度特性。G-FRNet[1]使用選通單元添加反饋。NAS-FPN[24]和Auto-FPN[73]使用神經結構搜索[87]以找到最佳的FPN結構。EfficientDet[66]建議重複一個簡單的BiFPN層。與它們不同的是,我們提出的遞歸特徵金字塔通過自底向上的主幹來不斷豐富FPN的表示能力。此外,我們將阿託魯斯空間金字塔池(ASPP)[13,14]整合到FPN中,以豐富功能,類似於無縫的mini DeepLab設計[55]。

遞歸卷積網絡。爲了解決不同類型的計算機視覺問題,人們提出了許多遞歸方法,如[32,42,65]。最近,CBNet[51]提出了一種遞歸的目標檢測方法,它將多個骨幹網級聯,輸出特徵作爲FPN的輸入。相比之下,我們的RFP使用包含有效融合模塊的、富含ASPP的FPN執行遞歸計算。

條件卷積條件卷積網絡採用動態核、寬度或深度,例如[16,39,43,48,74,77]。與之不同的是,我們提出的可切換的阿托拉斯卷積(SAC)可以在不改變任何預訓練模型的情況下,實現從標準卷積到條件卷積的有效轉換機制。因此,SAC是一個即插即用的模塊,用於許多預訓練的骨幹。此外,SAC使用全局上下文信息和一種新的權值鎖定機制,使其更加有效。

3. 遞歸特徵金字塔

3.1 特徵金字塔網絡

 其中x0是輸入圖像,fS+1=0。基於FPN的目標檢測器採用fi進行檢測計算。

3.2 遞歸特徵金字塔

 

我們對ResNet[28]主幹網B進行了更改,以允許它同時接受x和R(f)作爲輸入。ResNet有四個階段,每個階段由幾個相似的塊組成。我們只對每個階段的第一個塊進行更改,如圖3所示。此塊計算3層要素並將其添加到通過快捷方式計算的要素中。爲了使用特徵R(f),我們添加了另一個卷積層,其內核大小設置爲1。該層的權重初始化爲0,以確保從預先訓練的檢查點加載權重時不會產生任何實際效果。

3.3. ASPP as the Connecting Module

 

 

 我們沒有一個卷積層跟隨級聯特徵,因爲在這裏R不會生成密集預測任務中使用的最終輸出。注意,這四個分支中的每一個都產生一個特徵,其通道數是輸入特徵的1/4,連接它們會產生一個與R.In Sec的輸入特徵大小相同的特徵。5,我們展示了帶和不帶ASPP模塊的RFP的性能。

3.4  融合模塊的輸出更新

4. Switchable Atrous Convolution

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章