基於IoU的單級目標檢測算法

IoU-aware Single-stage Object Detector for Accurate Localization

Shengkai Wua, Xiaoping Lia,∗, Xinggang Wangb
aState Key Laboratory of Digital Manufacturing Equipment and Technology, Huazhong
University of Science and Technology, Wuhan, 430074, China.
bSchool of EIC, Huazhong University of Science and Technology, Wuhan, 430074, China.

Abstract

單級目標檢測器以其簡單高效的特點,在計算機視覺領域得到了廣泛的應用。然而,由於分類得分與預測檢測的定位精度相關性不高,嚴重影響了模型的定位精度。本文提出了一種基於IoU的單級目標檢測方法。具體來說,IoU感知的單級目標檢測器預測迴歸盒和地面真值盒之間的IoU。然後將分類得分與預測的IoU相乘,計算出與定位精度高度相關的檢測置信度利用檢測置信度作爲NMS和COCO-AP計算的輸入,將大大提高模型的定位精度。在COCO和PASCAL-VOC數據集上的大量實驗表明,基於IoU的單級目標檢測在提高定位精度方面是有效的。在沒有口哨聲和鐘聲的情況下,與基線相比,該方法在COCO測試dev和PASCAL VOC2007測試中的AP分別提高了1.0%和1.1%和2.2%。IoU閾值較高(0.7∼0.9)時,COCO測試設備的AP改善率爲1.7%∼2.3%,PASCAL VOC2007測試設備的AP改善率爲1.0%∼4.2%。源代碼將公開提供。

關鍵詞:IoU預測,IoU感知檢測器,精確定位,分類得分與定位精度的相關性

1. Introduction

隨着深卷積神經網絡的發展,近年來提出了大量的目標檢測模型。這些模型大多可分爲單級目標探測器[1、2、3、4、5、6]和多級目標探測器[7、8、9、10、11、12、13]。對於多級目標檢測器,採用了多級分類和定位的方法,使得這些模型在分類和定位任務上具有更強的能力。與單級目標檢測器相比,多級目標檢測器具有更好的平均精度(AP),但多級分類和定位子網的存在會影響檢測效率。相反,單級檢測器依靠完全卷積網絡(FCN)進行分類和定位,更加簡單有效。然而,單級探測器的AP通常落後於多級探測器。

本文旨在提高單級探測器的AP,同時保持其效率。結果表明,單級檢測器的分類分數與定位精度之間的低相關性嚴重影響了模型的定位精度。低相關性的主要原因是分類子網和定位子網在沒有明確相互瞭解的情況下,使用獨立的目標函數進行訓練。在模型收斂後,分類子網在不知道定位精度的情況下預測每個迴歸錨的分類得分,用迴歸錨與地面真值盒之間的IoU表示。因此,會有很多檢測結果存在分類分數與其定位精度不匹配的問題,例如分類分數高但IoU低的檢測,分類分數低但IoU高的檢測。在推理過程中,這些檢測會從兩個方面影響模型的定位精度。首先,在標準非最大抑制(NMS)中,所有檢測都基於它們的分類分數進行排序,並且具有較高分類分數的檢測將抑制與閾值重疊的其他檢測。因此,分類分數高但IoU高的檢測將被分類分數高但IoU低的檢測所抑制。其次,在計算平均精度(AP)的過程中,所有的檢測結果也會根據其分類得分進行排序。爲了計算平均精度,根據這些排序的檢測結果計算精度和召回率,如果在分類分數低但IoU高的檢測結果之前,分類分數高但IoU等級低的檢測結果,IoU閾值高的檢測結果精度會降低,從而導致IoU閾值高的AP值降低。這兩個問題都會影響模型的定位精度。

爲了解決上述問題,我們提出了基於RetinaNet的IoU感知單級目標檢測算法[3]。將與迴歸頭平行的IoU預測頭附加到迴歸分支的最後一層,以預測每個迴歸錨的IoU。在訓練過程中,IoU預測頭與分類頭、定位頭共同訓練。在推理過程中,通過將每個檢測框的分類得分和預測IoU相乘來計算檢測置信度,然後用於在隨後的NMS和AP計算中對所有檢測進行排序。由於檢測置信度與定位精度高度相關,可以解決上述問題,從而如實驗所示,大大提高模型的定位精度。

本文的其餘部分安排如下。第二節介紹了相關的研究工作。第三節詳細介紹了基於IoU的單級目標檢測器。第四節在COCO和PASCAL的VOC數據集上進行了大量的實驗,證明了該方法的有效性。第5節給出結論。

2. Related Work

分類得分與定位精度的相關性。分類得分與定位精度之間的低相關性嚴重影響了模型的定位精度,爲此提出了多種方法。適應度NMS[14]通過將定位精度劃分爲5個級別,並將定位精度預測任務轉化爲分類任務,改進了DeNet[15]。在推理過程中,將每個檢測盒的適應度計算爲預測適應度概率的加權和,然後與分類得分相乘,作爲與定位精度相關性較大的最終檢測得分。然後將此分數作爲網絡管理系統的輸入,表示爲適應度網絡管理系統,以提高DeNet的定位精度。IoU網[16]通過設計與R-CNN並行的IoU預測頭來預測每個RoI的迴歸IoU,提高了R-CNN的速度[7]。在推理過程中,根據預測的IoU對檢測到的3個盒子進行排序,然後採用IoUguided NMS提高定位精度。類似地,MS R-CNN[17]通過將Mask IoU頭與掩模頭平行地附加在掩模R-CNN[9]上以預測預測掩模和相應地面真值掩模之間的IoU來改進掩模R-CNN[9]。在推理過程中,將預測的IoU與分類得分相乘作爲最終的掩模置信度,然後用於計算AP時對預測的掩模進行排序。所有這些方法都設計了額外的子網來預測定位精度,並應用於多級探測器。還有其他的研究解決這個問題,通過設計更好的損失函數而不改變模型的體系結構。PISA[18]根據IoU層次局部秩(IoU-HLR)得到的分類損失的重要性,給正樣本分配不同的權重。此外,分類概率被用來重寫每個正例子對迴歸損失的貢獻,表示爲分類感知迴歸損失。對分類和迴歸損失的改善都能提高分類得分與定位精度的相關性。類似地,IoU均衡分類損失[19]使用迴歸IoU直接對每個正樣本的分類損失進行重新加權,目的是使IoU較高的樣本學習較高的分類得分,從而增強分類得分與定位精度之間的相關性。基於IoU的單級目標檢測旨在通過設計IoU預測頭來預測每個迴歸錨的IoU,從而改進單級目標檢測。

精確的目標定位。在諸如COCO數據集這樣的複雜場景中,精確的目標定位是一項極具挑戰性的工作,近年來人們提出了大量的方法來提高目標檢測模型的定位精度。多區域檢測器[20]發現單階段迴歸對於精確定位是有限的,因此提出了一種迭代包圍盒迴歸方法來細化檢測到的盒子的座標,然後是NMS和盒子投票。Cascade R-CNN[8]提出了一種多階段的目標檢測體系結構,該結構通過提高IoU閾值來訓練R-CNN序列。因此,訓練後的序列R-CNN在推理過程中對精確定位具有更強的能力。RefineDet[4]使用兩步邊界迴歸提高了單級檢測器的定位精度。錨細化模塊(ARM)首先對人工設計的錨進行細化,以提高人工設計錨的定位精度,然後目標檢測模塊(ODM)利用這些更精確的錨進行第二步包圍盒迴歸,從而提高最終檢測的定位精度。Libra R-CNN[21]設計了平衡的L1損失,以促進訓練過程中來自內部(精確樣本)的迴歸梯度。因此,經過訓練的迴歸分支將更有效地進行精確定位。類似地,IoUbalanced本地化損失[19]基於它們的迴歸IoU重新計算每個正例子的本地化損失。該方法可以降低野值梯度的權重,提高內點梯度的權重,從而提高模型的定位精度。不同的是,在NMS和AP計算過程中,基於計算的檢測置信度,IoU感知的單級目標檢測器通過抑制低定位精度的檢測來提高定位精度。

無錨單級目標探測器。爲了克服基於錨的檢測器的缺點,無錨單級目標檢測器近年來越來越流行。FCOS[22]以基於完全卷積中性網絡的每像素預測方式解決對象檢測問題。FCOS由三個預測頭組成:用於分類的分類頭、用於定位的迴歸頭、用於預測每個檢測盒中心度的中心度頭。在推理過程中,將每個檢測盒的預測中心度乘以相應的分類得分作爲最終得分,用於後續的NMS和AP計算,以抑制局部性差的檢測。PolarMask[23]通過修改FCOS來實現實例分割。同樣,中心頭也被用來抑制低定位精度的分割,提高模型的定位精度。基於IoU感知的單級目標檢測器設計了一個與迴歸頭平行的IoU預測頭來預測每一次檢測的IoU,預測的IoU可以用來抑制局部性差的檢測。不同的是,IoUaware單級目標檢測器是一種基於錨的檢測器,預測每個檢測盒的IoU。

3. Method

在這一部分中,我們將詳細介紹IoU感知的單級目標檢測器的模型結構和不同的設計選擇。

圖1:IoU感知單級目標檢測器的模型結構。採用與RetinaNet相同的骨幹網和特徵金字塔網絡(FPN)。在迴歸分支的最後一層,設計了與迴歸頭平行的IoU預測頭,對迴歸錨與地面真值盒之間的IoU進行預測。分類頭、迴歸頭和IoU預測頭均由單個3×3卷積層組成。

3.1. IoU-aware single-stage object detector

模型架構。IoU感知的單級目標檢測器主要基於RetinaNet[3],採用與圖1相同的骨幹和特徵金字塔網絡(FPN)。與RetinaNet不同,我們設計了一個與迴歸分支最後一層迴歸頭平行的IoU預測頭,在保持分類分支不變的情況下,預測每個迴歸錨與地面真值盒之間的IoU。爲了保持模型的有效性,IoU預測頭只包含一個3×3卷積層,然後是一個sigmoid激活層,確保預測IoU在[0,1]的範圍內。IoU預測頭的設計也有很多其他的選擇,例如設計一個獨立的IoU預測分支,與分類分支和迴歸分支一樣,但是這種設計會嚴重影響模型的效率。我們的設計給整個模型帶來了很小的計算負擔,並且仍然可以大大提高模型的AP。

訓練。與RetinaNet一樣,分類損失採用focal loss,迴歸損失採用平滑L1損失,如等式1,2所示。由於預測的IoU在[0,1]範圍內,所以採用二元交叉熵損失作爲IoU預測損失,如等式3所示。訓練過程中,IoU預測頭與分類頭、迴歸頭共同訓練。還可以考慮其他類型的損耗函數,如L2損耗和L1損耗。在下面的實驗中將比較這些不同的損耗函數。 

推斷。在推斷時,每個檢測框的分類得分和預測IoU是基於eq.5作爲最終檢測置信度計算的。參數α用於控制分類得分和預測IoU對最終檢測置信度的貢獻。這種檢測置信度可以同時表示分類置信度和定位精度。因此,與分類得分相比,檢測置信度與定位精度的相關性更強。然後利用檢測置信度對後續NMS和AP計算中的所有檢測進行排序。在這個過程中,將抑制不好的局部檢測。 

                                                       

4. Experiments

數據集和評估指標。大多數實驗都是在具有挑戰性的MS-COCO[24]數據集上進行評估的。它由118k張培訓用圖片(train-2017)、5k張驗證用圖片(val-2017)和20k張未公開測試標籤的圖片(test dev)組成。數據集中存在80個類別的500多個註釋對象實例。爲了證明該方法的泛化能力,我們還對消融研究中的PASCAL-VOC[25]數據集進行了實驗。VOC2007由5011個訓練圖像(VOC2007 trainval)和4952個測試圖像(VOC2007 7 test)組成。VOC2012包括17125張訓練圖像(VOC2012 trainval)和5138張測試圖像(VOC2012 test)。所有實驗均採用標準COCO式平均精度(AP)指標,由AP(IoU平均AP爲0.5~0.95,區間爲0.05)、AP50(IoU平均AP爲0.5)、AP75(IoU平均AP爲0.75)、APS(小尺度目標AP)、APM(中尺度目標AP)和APL(大尺度目標AP)組成比例尺)。 

實施細節。所有的目標檢測模型都是基於PyTorch和MMDetection實現的[26]。由於只有2個GPU可用,因此在訓練期間採用線性縮放規則[27]來調整學習率。對於主要結果,所有模型都在COCO testdev上進行了評估。以MMDetection提供的收斂模型作爲基線。在MMDetection的默認設置下,IoU感知的單級目標檢測器都被訓練爲總共12個階段,圖像比例爲[800,1333]。一些文獻報道了在總時間延長1.5倍、尺度抖動的情況下對模型進行訓練的主要結果。我們的實驗沒有采用這些技巧。在消融研究中,以ResNet50爲骨幹的IoU感知單級目標探測器在COCO train-2017上進行訓練,並在COCO val-2017上使用圖像尺度[600,1000]進行評估。對於PASCAL-VOC實驗,分別在VOC2007-trainval和VOC2012-trainval上訓練不同骨幹的模型,並在VOC2007實驗中進行評價,圖像尺度爲[600,1000]。如果未指定,則所有其他設置將保持與MMDdetection中的默認設置相同。

4.2. Main Results

在表1所示的主要結果中,將具有不同主幹的IoU感知的單級目標檢測器的性能與COCO測試設備上最新的目標檢測模型進行了比較。爲了公平比較,將具有不同主幹的MMDetectioin[26]提供的訓練模型作爲基線進行評估。如表1所示,與基線相比,具有不同主幹的IoUaware視網膜網可顯著改善AP 1.0%∼1.6%。AP50的性能略有提高或降低,但AP75的性能卻有1.7%∼2.3%的大幅度提高,這表明IoU感知視網膜網絡對提高模型定位精度的有效性。此外,IoU-aware視網膜系統的性能已經超過了兩級檢測器,同一主幹網的R-CNN速度提高了0.3%∼0.7%,主要是由於IoU-aware RetinaNet具有較高的定位精度。

 

4.3. Ablation Studies

IoU預測損失。不同的IoU預測損失被用來訓練IoU感知的視網膜。爲了研究IoU預測損失的影響,在不使用參數α的情況下,通過直接乘以分類得分和預測IoU來計算檢測置信度。如表2所示,用二元交叉熵損失訓練模型比用L2損失訓練模型能產生更好的性能。這可能是由於在訓練具有二元交叉熵損失的IoU預測頭時,預測的IoU更爲準確。因此,在隨後的所有實驗中都採用了二元交叉熵損失。

 

檢測置信度計算。在推斷時,基於Equ.5.計算檢測置信度,參數α用於控制分類得分和預測IoU對最終檢測置信度的貢獻。從表3和表4的實驗結果中可以觀察到一些現象。首先,如表3所示,當α等於1.0時,僅用分類得分作爲檢測置信度,AP提高0.2%。這表明,具有IoU預測損失的多任務訓練有利於模型的性能。其次,當α分別爲0.5和0.4時,AP的最佳性能爲35.5%,比基線提高1.2%。如表4所示,AP50略微降低了0.4%∼0.8%,AP70和AP80提高了2.0%∼2.7%,證明了我們的方法在提高模型定位精度方面的有效性。第三,當參數α減小以提高預測IoU對檢測置信度的貢獻時,AP50減小,而AP70和AP80增大,如表4所示。這表明,預測的IoU與定位精度有很強的相關性,可以使模型偏向於定位精度較高的檢測。此外,檢測置信度也可以通過直接乘以分類得分和預測IoU來計算,而無需使用參數α。如表3所示,在不使用參數α的情況下直接乘以分類得分和預測IoU,AP可提高1.1%,這略低於使用參數α計算檢測置信度。因此,我們選擇基於Equ.5.計算檢測置信度。

 

PASCAL-VOC的消融研究。如表5所示,與基線相比,IoU感知視網膜網能改善AP 1.1%∼2.2%。此外,在較高的IoU閾值(0.7,0.8,0.9)下,AP的改進率爲1.0%∼4.2%,表明我們的方法可以顯著提高模型的定位精度11。PASCAL-VOC數據集實驗中的觀測結果與COCO數據集實驗中的觀測結果一致,說明該方法對其他數據集具有泛化能力,可應用於不同的應用場景。 

5. Conclusions

在本文中,我們證明了單級目標檢測器的分類分數和定位精度之間的低相關性會嚴重影響模型的定位精度。因此,通過在迴歸分支的最後一層增加一個IoU預測頭來設計IoU感知的單級目標檢測器,以預測每個迴歸錨與地面真值盒之間的IoU。這樣,模型就可以知道每次檢測的定位精度。在推理時,通過將分類分數和預測IoU相乘來計算檢測置信度,然後在隨後的NMS和AP計算中用於對所有檢測進行排序。在MS-COCO數據集和PASCAL-VOC數據集上的大量實驗表明,基於IoU的單級目標檢測方法可以顯著提高模型的性能,尤其是定位精度。

References
[1] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, A. C.
Berg, Ssd: Single shot multibox detector, in: European conference on
computer vision, Springer, 2016, pp. 21–37.
[2] J. Redmon, S. Divvala, R. Girshick, A. Farhadi, You only look once:
Unified, real-time object detection, in: Proceedings of the IEEE confer-
ence on computer vision and pattern recognition, 2016, pp. 779–788.
[3] T.-Y. Lin, P. Goyal, R. Girshick, K. He, P. Dollár, Focal loss for dense
object detection, in: Proceedings of the IEEE international conference
on computer vision, 2017, pp. 2980–2988.
[4] S. Zhang, L. Wen, X. Bian, Z. Lei, S. Z. Li, Single-shot refinement neural
network for object detection, in: Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, 2018, pp. 4203–4212.
12
[5] Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, A. L. Yuille, Single-
shot object detection with enriched semantics, in: Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2018,
pp. 5813–5821.
[6] B. Li, Y. Liu, X. Wang, Gradient harmonized single-stage detector,
in: Proceedings of the AAAI Conference on Artificial Intelligence, vol-
ume 33, 2019, pp. 8577–8584.
[7] S. Ren, K. He, R. Girshick, J. Sun, Faster r-cnn: Towards real-time
object detection with region proposal networks, in: Advances in neural
information processing systems, 2015, pp. 91–99.
[8] Z. Cai, N. Vasconcelos, Cascade r-cnn: Delving into high quality object
detection, in: Proceedings of the IEEE conference on computer vision
and pattern recognition, 2018, pp. 6154–6162.
[9] K. He, G. Gkioxari, P. Dollár, R. Girshick, Mask r-cnn, in: Proceedings
of the IEEE international conference on computer vision, 2017, pp. 2961–
2969.
[10] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, S. Belongie,
Feature pyramid networks for object detection, in: Proceedings of the
IEEE conference on computer vision and pattern recognition, 2017, pp.
2117–2125.
[11] J. Dai, Y. Li, K. He, J. Sun, R-fcn: Object detection via region-based
fully convolutional networks, in: Advances in neural information pro-
cessing systems, 2016, pp. 379–387.
[12] R. Girshick, Fast r-cnn, in: Proceedings of the IEEE international
conference on computer vision, 2015, pp. 1440–1448.
[13] R. Girshick, J. Donahue, T. Darrell, J. Malik, Rich feature hierarchies
for accurate object detection and semantic segmentation, in: Proceed-
ings of the IEEE conference on computer vision and pattern recognition,
2014, pp. 580–587.
[14] L. Tychsen-Smith, L. Petersson, Improving object localization with fit-
ness nms and bounded iou loss, in: Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, 2018, pp. 6877–6885.
13
[15] L. Tychsen-Smith, L. Petersson, Denet: Scalable real-time object de-
tection with directed sparse sampling, in: Proceedings of the IEEE
International Conference on Computer Vision, 2017, pp. 428–436.
[16] B. Jiang, R. Luo, J. Mao, T. Xiao, Y. Jiang, Acquisition of localiza-
tion confidence for accurate object detection, in: Proceedings of the
European Conference on Computer Vision (ECCV), 2018, pp. 784–799.
[17] Z. Huang, L. Huang, Y. Gong, C. Huang, X. Wang, Mask scoring r-
cnn, in: Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, 2019, pp. 6409–6418.
[18] Y. Cao, K. Chen, C. C. Loy, D. Lin, Prime sample attention in object
detection, arXiv preprint arXiv:1904.04821 (2019).
[19] S. Wu, X. Li, IoU-balanced Loss Functions for Single-stage Object De-
tection, arXiv e-prints (2019) arXiv:1908.05641. arXiv:1908.05641.
[20] S. Gidaris, N. Komodakis, Object detection via a multi-region and
semantic segmentation-aware cnn model, in: Proceedings of the IEEE
international conference on computer vision, 2015, pp. 1134–1142.
[21] J. Pang, K. Chen, J. Shi, H. Feng, W. Ouyang, D. Lin, Libra r-cnn:
Towards balanced learning for object detection, in: Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2019,
pp. 821–830.
[22] Z. Tian, C. Shen, H. Chen, T. He,  FCOS: Fully Convolutional
One-Stage Object Detection, arXiv e-prints (2019) arXiv:1904.01355.
arXiv:1904.01355.
[23] E. Xie, P. Sun, X. Song, W. Wang, X. Liu, D. Liang, C. Shen, P. Luo,
PolarMask: Single Shot Instance Segmentation with Polar Representa-
tion, arXiv e-prints (2019) arXiv:1909.13226. arXiv:1909.13226.
[24] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,
P. Doll´ ar, C. L. Zitnick, Microsoft coco: Common objects in context,
in: European conference on computer vision, Springer, 2014, pp. 740–
755.
14
[25] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, A. Zisserman,
The pascal visual object classes (voc) challenge, International journal
of computer vision 88 (2010) 303–338.
[26] K. Chen, J. Wang, J. Pang, Y. Cao, Y. Xiong, X. Li, S. Sun, W. Feng,
Z. Liu, J. Xu, et al., Mmdetection: Open mmlab detection toolbox and
benchmark, arXiv preprint arXiv:1906.07155 (2019).
[27] P. Goyal, P. Doll´ ar, R. Girshick, P. Noordhuis, L. Wesolowski, A. Kyrola,
A. Tulloch, Y. Jia, K. He, Accurate, large minibatch sgd: Training
imagenet in 1 hour, arXiv preprint arXiv:1706.02677 (2017).
[28] J. Redmon, A. Farhadi, Yolo9000: better, faster, stronger, in: Proceed-
ings of the IEEE conference on computer vision and pattern recognition,
2017, pp. 7263–7271.
[29] J. Redmon, A. Farhadi, Yolov3: An incremental improvement, arXiv
preprint arXiv:1804.02767 (2018).
[30] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, Y. Wei, Deformable
convolutional networks, in: Proceedings of the IEEE international con-
ference on computer vision, 2017, pp. 764–773.
[31] R. Girshick, I. Radosavovic, G. Gkioxari, P. Doll´ ar, K. He, Detectron,
https://github.com/facebookresearch/detectron, 2018. 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章