【目標檢測】PVANET:Deep but Lightweight Neural Networks for Real-time Object Detection

論文:《PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection》

論文鏈接:https://arxiv.org/abs/1608.08021

代碼鏈接:https://github.com/sanghoon/pva-faster-rcnn

參考原文https://blog.csdn.net/u014380165/article/details/79502113

                  https://www.cnblogs.com/fariver/p/7449563.html

1、論述

RCNN系列的object detection算法總體上分爲特徵提取、RPN網絡和分類迴歸三大部分,Faster RCNN的效果雖好,但是速度較慢,這篇文章的出發點是改進Faster CNN的特徵提取網絡,也就是用PVANET來提取特徵作爲Faster RCNN網絡中RPN部分和RoI Pooling部分的輸入,改進以後的Faster RCNN可以在基本不影響準確率的前提下減少運行時間。

加寬和加深網絡向來是提升網絡效果的兩個主要方式,因爲要提速,所以肯定做不到同時加寬和加深網絡,因此PVANET網絡的總體設計原則是:less channels with more layers,深層網絡的訓練問題可以通過residual(殘差網絡)結構來解決。

2、創新點

PVAnet是RCNN系列目標方向,基於Faster-RCNN進行改進,Faster-RCNN基礎網絡可以使用ZF、VGG、Resnet等,但精度與速度難以同時提高。PVAnet的含義應該爲:Performance Vs Accuracy,意爲加速模型性能,同時不丟失精度的含義。主要的工作再使用了高效的自己設計的基礎網絡。

該網絡使用了C.ReLU、Inception、HyperNet以及residual模塊等技巧。

整體網絡結構如圖1所示:

3、C.ReLU

C.ReLU(concatenated ReLU)主要是用來減少計算量。

作者觀察CNN網絡的前面一些基礎網絡卷積層參數,發現低層卷積核成對出現(參數互爲相反數),因此,作者減小輸出特徵圖個數爲原始一半,另一半直接取相反數得到,再將兩部分特徵圖連接,從而減少了卷積核數目。

另外在本文中,和原始的C.ReLU相比,作者還額外添加了scale/shift層用來做尺度變換和平移操作,相當於一個線性變換,改變原來完全對稱的數據分佈。

C.ReLU的模塊結構如圖2所示。

4、Inception模塊

作者發現googlenet中Inception模塊由於具有多種感受野的卷積核組合,因此能夠適應多尺度目標的檢測,作者使用基於Inception模塊組合並且組合跳級路特徵進行基礎網絡後部分特徵的提取。

Figure3是作者使用的Inception結構,其中右邊和左邊相比多了stride=2,所以輸出的feature map的size減半。

5、HyperNet

多層特徵融合可以儘可能利用細節和抽象特徵,這種做法在object detection領域也常常用到,比如SSD,但是在融合的時候需要注意融合的特徵要儘量不冗餘,否則就白白增加計算量了。

Table1是PVANET的網路結構圖。前半部分採用常規的卷積,後半部分採用Inception結構,另外residual結構的思想也貫穿了這兩部分結構。之所以引入residual結構,主要還是回到作者一開始提到的網絡結構設計原則:less channels with more layers。受限於深層網絡的訓練瓶頸,所以引入residual結構。C.ReLU那一列包含1*1、K*K和1*1卷積,其中K*K部分就是前面Figure1的C.ReLU結構,而前後的兩個1*1卷積是做通道的縮減和還原,主要還是爲了減少計算量。強調下關於特徵層融合的操作:將conv3_4進downscale、將conv5_4進行upscale,這樣這兩層feature map的size就和conv4_4的輸出size一樣,然後將二者和conv4_4進行concate得到融合以後的特徵。
è¿éåå¾çæè¿°

6、實驗過程

除了以上基礎網絡的區別:

(1) PVAnet使用的anchor與faster-rcnn不同,PVA在每個特徵點上使用了25個anchor(5種尺度,5種形狀)。

(2) 並且RPN網絡不使用全部特徵圖就能達到很好的定位精度,RPN網絡只用生成200個proposals;

(3) 使用VOC2007、VOC2012、COCO一起訓練模型;

(4) 可以使用類似於Fast-RCNN的truncated SVD來加速全連接層的速度;

(5) 使用投票機制增加訓練精度,投票機制應該參考於R-FCN

7、實驗結果

Table2是在VOC2007數據集上的不同配置的PVANET網絡實驗結果。 

è¿éåå¾çæè¿°

Table3是在VOC2012數據集上的PVANET網絡和Faster RCNN、RFCN網絡的對比。

è¿éåå¾çæè¿°

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章