YOLO系列論文筆記--YOLOv3

YOLOv3

繼續的改進;比YOLOv2的網絡大,但準確率高仍舊快;320*320YOLOv3,28.2mAP,測試一張圖片22ms,與SSD一樣準確速度是SSD的三倍;YOLOv3的AP50爲57.9(51ms),RetinaNet爲57.5(198ms);

--Bounding Box預測:與YOLOv2相同;

--類預測:不使用softmax,因爲有些boundingbox包括多標籤(不能很好的適用其它數據集);使用獨立的logistic分類器與二值交叉熵損失;

--跨尺度預測:從三個不同的特徵尺度預測(類似於特徵金字塔);對於COCO預測tensor爲(n*n*[3*(4=1=80)])(每個尺度預測三個anchor);除了網絡最後的尺度外,另外兩個利用最後包含語義信息的特徵Map2倍上採樣所得到的Map與前面層包含較多細節信息的Map進行疊加,然後經過一系列卷積處理得到最終的檢測所需的特徵Map(實現的具體細節請閱讀論文);bounding box priors依然由k-means聚類得到,按順序選擇前9個聚類,然後將這9類在3個不同的尺度均勻劃分;COCO 數據集的9個聚類爲:(10*13), (16*30),(33*23),(30*61), (62*45), (59*119), (116*90),(156*198), (373*326);

--特徵提取:新網絡(Darknet-53)由Darknet-19和residual網絡混合而成;Darknet-53比Darknet-19更強大,比ResNet-101和ResNet-152更有效率,每個網絡訓練具有相同的設置(Titan X,256*256);


--訓練:訓練在整張圖片上(無hard negative mining和其它的處理);多規模訓練,batch normalization,大量的數據擴展和其它標準的東西;

實驗

--實驗分析(COCOs):YOLOv3在AP上SSD的變體持平,但速度是它的3倍,並且落後於一些模型;在AP50上,幾乎與RetinaNet持平但遠高於SSD的變體(表明YOLOv3能很好的爲對象預測Boundingbox),然而在當IOU增加時,性能下降(表明不能將生成的boxes與目標完美的對齊);運用了多尺度,提高了網絡對於小目標的性能,但是對於中大目標其性能不是很好(原因論文尚未分析出);



--嘗試的改進但未成功:(1)Anchor box (x,y)偏置的預測;(2)Linear x,y 預測而不是logistic;(3)焦點損失:mAP降低2個百分點,可能大多數樣本沒有損失(沒有確定);(4)雙IOU閾值與truth指派;

--結論:對於這篇論文最有感觸的一句話:我們有責任爲我們的工作所帶來的危害考慮,並思考如何去減少這些危害。作爲一個計算機方面的新手,以前總是爲了發論文而看論文,可是當我認真的看了一些論文時,我發現我喜歡上了這種爲了驗證自己的邏輯而做一系列實驗的過程,直到看到這篇論文的最後一句話,才忽然明白,所謂的學術不只是這些,而是要以“造物主”的思想去賦予新事物於“靈性”。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章