目標檢測學習之路——YOLOv3

相比於YOLOv2,YOLOv3主要做了如下改進:1、提出了新的特徵提取器模型Darknet53,該模型相比於Darknet19採用了殘差單元(類似ResNet),因此網絡模型可以更深;2、採用FPN(feature pyramid networks)結構來實現多尺度預測;3、分類器的改變,使用多個多個 logistic 分類器替代原始的Softmax分類器。

1、Darknet53

Darknet53 與 ResNet-101 或 ResNet-152 準確率接近,但速度更快,對比如下:

檢測模型網絡結構如下所示:

2、多尺度預測

YOLOv3使用了3個尺度的feature map(當輸入圖像的分辨率爲416×416時3個尺度的feature map爲:13×13、26×26、52×52)來預測檢測結果。每種尺度預設3個Anchor box(使用k-means聚類的方式得到9個Anchor box,並將其分配到3個不同尺度的feature map上,尺度越大的feature map使用更小的Anchor box,這一做法是爲了使模型對小目標物體更友好),檢測模型如上圖所示:

scale 1:在基礎網絡的後面添加了一系列的卷積層,經過一系列的卷積操作後輸出預測的bounding box信息。

scale 2:將scale1中的倒數第三個卷積層的輸出進行1×1的卷積後進行上採樣(x2),再與backbone中最後一個26×26的feature map進行concat拼接,之後經過一系列的卷積操作後輸出預測的bounding box信息。

scale 3:將scale2中的倒數第三個卷積層的輸出進行1×1的卷積後進行上採樣(x2),再與backbone中最後一個52×52的feature map進行concat拼接,之後經過一系列的卷積操作後輸出預測的bounding box信息。

3、分類器

YOLOv2中預測bounding box中目標所屬類別時是用的Softmax分類器,Softmax分類器不適用於多標籤分類。因此,在YOLOv3中使用多個獨立的logistic 分類器來替代Softmax分類器。

YOLOv3的性能對比如下所示:

 可以看出YOLOv3模型的AP值雖然不是最好的,但是在速度方面YOLOv3完勝其它模型方法。YOLOv3 在 mAP-0.5 及小目標 APs 上的優勢更加明顯,但是隨着 IOU的增大,性能開始下降,這說明 YOLOv3 不能很好地與 ground truth 貼合。

以上是自己學習YOLOv3時一些看法以及查閱相關資料的一些總結,如有理解錯誤之處請指正。

 

發佈了13 篇原創文章 · 獲贊 11 · 訪問量 9521
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章