Dynamic ATSS:預測結果纔是正負樣本區分的最佳準則

論文認爲預測結果能夠更準確地區分正負樣本,提出結合預測結果IoU和anchor IoU來準確地選擇最高質量的預測結果進行網絡訓練。整體算法簡單但十分有效,值得看看

來源:曉飛的算法工程筆記 公衆號

論文: Dynamic Label Assignment for Object Detection by Combining Predicted and Anchor IoUs

Introduction


  Label assignment是目標檢測裏面很重要的一環,用於區分正樣本和負樣本。對於anchor-based模型,常規做法是根據設定的anchor IoU閾值直接區分正負樣本。早期的檢測模型都用固定的閾值,忽略了目標的形狀和大小特徵的差異。而近期出現了一些動態閾值的研究,根據目標的特徵動態調整閾值,選擇較高質量的anchor作爲正樣本。但高質量的anchor並不能保證對應最高質量的輸出結果,強行綁定的話反而會限制模型的訓練。
  實際上,直接用預測結果的IoU作爲正負樣本的區分更爲準確,能夠直接反映網絡的實際訓練狀態。但需要注意的是,訓練初期的預測結果可能存在隨機性。爲此,論文基於ATSS網絡,結合預測結果IoU和anchor IoU區分正負樣本。另外,論文還將Centerness分支替換爲IoU分支,引入了QFL(或VFL)來對soft target(預測的IoU值)進行優化。

Proposed Approach


Revisit Adaptive Label Assignment

  自適應label assignment先爲每個GT選擇多個最近的候選anchor,然後計算候選anchor與對應的GT之間的IoU值的統計信息,如均值和標準差,最後根據統計信息計算動態閾值。高質量anchor多的GT設置較高的閾值,而低質量anchor多的GT則設置較低的閾值,保證了正樣本的數量。
  但大多數的自適應策略都只考慮預設的anchor,忽略了訓練過程產生的預測bbox,導致部分高質量的預測結果被歸類爲負樣本,對性能影響較大。如果直接將預測結果加入到自適應策略中,由於訓練初期的預測結果還不夠可信,這反而可能會影響訓練。爲此,論文提出結合預設anchor和預測bbox來解決這一問題。

Dynamic Label Assignment

  論文將預設anchor與預測結果構成combined IoU進行label assignment。在訓練初期,由於預測結果不準確,將anchor作爲label define的主要準則。隨着訓練的進行,預測結果逐步控制combined IoU並引導訓練階段的label assignment。整體網絡結果如圖1所示,以ATSS作爲基礎網絡,將預測結果的IoU和預設anchor的IoU組合成Combined IoU。如果對ATSS感興趣,可以去看看ATSS : 目標檢測的自適應正負anchor選擇,很紮實的trick | CVPR 2020

  • why utilizing predictions is so important to guide the label assignment?

  由於最終檢測結果是從預測結果中選擇的,而且NMS也是基於預測結果計算的,預測結果比預設anchor能更準確地分辨正負樣本。在設計檢測模型時,一般都認爲IoU更高或更近的預設框更適合做正樣本。但由於預設框和GT是固定不變的,這意味着一旦預設框的正負樣本劃分好了,就不會在訓練階段有任何改變了。儘管這樣的預設框的確有更大的可能輸出高質量預測結果,但顯然高質量的預測結果並不一定來自於高質量的預設框。
  強制指定高質量預設框爲正樣本,反而會導致網絡只專注於學習這些"可能高質量"的預設框的輸出而忽略了其他真實存在的高質量輸出。如果在每輪迭代中都引入預測結果來區分正負樣本,則可以爲模型更準確地選擇最高質量的輸出,從而提升模型的整體性能。

Soft Targets for Classification Loss

  由於論文引入了預測結果進行label assignment,所以使用soft target(預測的IoU值)對預測結果進行質量排序是再適合不過的,這恰好可以借用GFL和VFNet來進一步提升模型的性能。

  GFL是基於focal loss改進的針對連續值的版本,包含QFL和DFL兩部分,分別用於優化分類分支和迴歸分支。QFL將分類分支與IoU分支融合成IoU-aware的分類分支,預測的目標不再是0和1,而是0或預測框與GT的IoU。隨後根據預測結果與實際IoU之間的差值進行權重的調整。論文引入了QFL用於提升分類部分的性能,具體QFL的設計可以去看看Generalized Focal Loss:Focal loss魔改以及預測框概率分佈,保漲點 | NeurIPS 2020。另外,論文在實驗部分也有增加GFLV2+combined IoU以及VFNet+combined IoU的實現進行測試,具體GFLV2的設計可以去看看GFLV2:邊界框不確定性的進一步融合,提點神器 | CVPR 2021

  VFNet中的VFL根據soft target對正樣本進行權重優化,跟GFL一樣也將分類分支與IoU分支融合成IoU-aware的分類分支。不同的是,VFL將質量更高的正樣本設置更高的權重,負樣本則維持原本focal loss的模式,讓模型專注於高質量正樣本和錯誤負樣本的學習。

Experiment


  CIoU(Combined IoU)、QFL、VFL對比結果。

  不同訓練方法搭配CIoUs的迴歸損失曲線。

  各模塊的對比實驗,AIoU代表anchor的IoU用於區分正負樣本,PIoU代表預測結果的IoU用於區分正負樣本,IoU branch代表將Centerness分支替換爲IoU分支。

  CIoU的結合比例對比,D_up和D_down分別代表動態上升和下降。

  在COCO上進行完整網絡的對比,Dynamic ATSS爲ATSS+CIoUs+QFL+IOU branch。這裏的準確率沒有比GFL高,論文認爲是GFL使用了臃腫的DFL提升了迴歸分支準確率,而論文只是使用了簡單的迴歸分支。

  不同訓練網絡搭配CIoU的作用。

Conclusion


  論文認爲預測結果能夠更準確地區分正負樣本,提出結合預測結果IoU和anchor IoU來準確地選擇最高質量的預測結果進行網絡訓練。整體算法簡單但十分有效,值得看看。



如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公衆號【曉飛的算法工程筆記】

work-life balance.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章