【目標檢測】PVANET:Deep but Lightweight Neural Networks for Real-time Object Detection

原創

zhw864680355

2020-07-06 21:06

論文：《PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection》

論文鏈接：https://arxiv.org/abs/1608.08021

代碼鏈接：https://github.com/sanghoon/pva-faster-rcnn

參考原文：https://blog.csdn.net/u014380165/article/details/79502113

https://www.cnblogs.com/fariver/p/7449563.html

1、論述

RCNN系列的object detection算法總體上分爲特徵提取、RPN網絡和分類迴歸三大部分，Faster RCNN的效果雖好，但是速度較慢，這篇文章的出發點是改進Faster CNN的特徵提取網絡，也就是用PVANET來提取特徵作爲Faster RCNN網絡中RPN部分和RoI Pooling部分的輸入，改進以後的Faster RCNN可以在基本不影響準確率的前提下減少運行時間。

加寬和加深網絡向來是提升網絡效果的兩個主要方式，因爲要提速，所以肯定做不到同時加寬和加深網絡，因此PVANET網絡的總體設計原則是：less channels with more layers，深層網絡的訓練問題可以通過residual（殘差網絡）結構來解決。

2、創新點

PVAnet是RCNN系列目標方向，基於Faster-RCNN進行改進，Faster-RCNN基礎網絡可以使用ZF、VGG、Resnet等，但精度與速度難以同時提高。PVAnet的含義應該爲：Performance Vs Accuracy，意爲加速模型性能，同時不丟失精度的含義。主要的工作再使用了高效的自己設計的基礎網絡。

該網絡使用了C.ReLU、Inception、HyperNet以及residual模塊等技巧。

整體網絡結構如圖1所示:

3、C.ReLU

C.ReLU（concatenated ReLU）主要是用來減少計算量。

作者觀察CNN網絡的前面一些基礎網絡卷積層參數，發現低層卷積核成對出現(參數互爲相反數)，因此，作者減小輸出特徵圖個數爲原始一半，另一半直接取相反數得到，再將兩部分特徵圖連接，從而減少了卷積核數目。

另外在本文中，和原始的C.ReLU相比，作者還額外添加了scale/shift層用來做尺度變換和平移操作，相當於一個線性變換，改變原來完全對稱的數據分佈。

C.ReLU的模塊結構如圖2所示。

4、Inception模塊

作者發現googlenet中Inception模塊由於具有多種感受野的卷積核組合，因此能夠適應多尺度目標的檢測，作者使用基於Inception模塊組合並且組合跳級路特徵進行基礎網絡後部分特徵的提取。

Figure3是作者使用的Inception結構，其中右邊和左邊相比多了stride=2，所以輸出的feature map的size減半。

5、HyperNet

多層特徵融合可以儘可能利用細節和抽象特徵，這種做法在object detection領域也常常用到，比如SSD，但是在融合的時候需要注意融合的特徵要儘量不冗餘，否則就白白增加計算量了。

Table1是PVANET的網路結構圖。前半部分採用常規的卷積，後半部分採用Inception結構，另外residual結構的思想也貫穿了這兩部分結構。之所以引入residual結構，主要還是回到作者一開始提到的網絡結構設計原則：less channels with more layers。受限於深層網絡的訓練瓶頸，所以引入residual結構。C.ReLU那一列包含1*1、K*K和1*1卷積，其中K*K部分就是前面Figure1的C.ReLU結構，而前後的兩個1*1卷積是做通道的縮減和還原，主要還是爲了減少計算量。強調下關於特徵層融合的操作：將conv3_4進downscale、將conv5_4進行upscale，這樣這兩層feature map的size就和conv4_4的輸出size一樣，然後將二者和conv4_4進行concate得到融合以後的特徵。

6、實驗過程

除了以上基礎網絡的區別：

(1) PVAnet使用的anchor與faster-rcnn不同，PVA在每個特徵點上使用了25個anchor(5種尺度，5種形狀)。

(2) 並且RPN網絡不使用全部特徵圖就能達到很好的定位精度，RPN網絡只用生成200個proposals；

(3) 使用VOC2007、VOC2012、COCO一起訓練模型；

(4) 可以使用類似於Fast-RCNN的truncated SVD來加速全連接層的速度;

(5) 使用投票機制增加訓練精度，投票機制應該參考於R-FCN

7、實驗結果

Table2是在VOC2007數據集上的不同配置的PVANET網絡實驗結果。

Table3是在VOC2012數據集上的PVANET網絡和Faster RCNN、RFCN網絡的對比。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【目標檢測】PVANET:Deep but Lightweight Neural Networks for Real-time Object Detection

1、論述

2、創新點

3、C.ReLU

4、Inception模塊

5、HyperNet

6、實驗過程

7、實驗結果

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

【目標檢測】EfficientDet: Scalable and Efficient Object Detection

SENet結構解讀

EfficientNet論文解析

機器學習面試題（持續更新）

OpenCV實踐：去除票據中的紅色印章

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結