本文轉載自：

http://www.cnblogs.com/lillylin/p/6277094.html

R-FCN論文閱讀（R-FCN: Object Detection via Region-based Fully Convolutional Networks ）

作者及相關鏈接

作者：

作者鏈接：代季峯，何愷明，孫劍
論文鏈接：論文傳送門
代碼鏈接：matlab版，python版

方法概括

R-FCN解決問題——目標檢測
整個R-FCN的結構
- 一個base的conv網絡如ResNet101, 一個RPN（Faster RCNN來的）,一個position sensitive的prediction層，最後的ROI pooling+投票的決策層

R-FCN的idea出發點（關鍵思想）
- 分類需要特徵具有平移不變性，檢測則要求對目標的平移做出準確響應。現在的大部分CNN在分類上可以做的很好，但用在檢測上效果不佳。SPP，Faster R-CNN類的方法在ROI pooling前都是卷積，是具備平移不變性的，但一旦插入ROI pooling之後，後面的網絡結構就不再具備平移不變性了。因此，本文想提出來的position sensitive score map這個概念是能把目標的位置信息融合進ROI pooling。

- 對於region-based的檢測方法，以Faster R-CNN爲例，實際上是分成了幾個subnetwork，第一個用來在整張圖上做比較耗時的conv，這些操作與region無關，是計算共享的。第二個subnetwork是用來產生候選的boundingbox（如RPN），第三個subnetwork用來分類或進一步對box進行regression（如Fast RCNN），這個subnetwork和region是有關係的，必須每個region單獨跑網絡，銜接在這個subnetwork和前兩個subnetwork中間的就是ROI pooling。我們希望的是，耗時的卷積都儘量移到前面共享的subnetwork上。因此，和Faster RCNN中用的ResNet（前91層共享，插入ROI pooling，後10層不共享）策略不同，本文把所有的101層都放在了前面共享的subnetwork。最後用來prediction的卷積只有1層，大大減少了計算量。

方法細節

Backbone architecture: ResNet 101——去掉原始ResNet101的最後一層全連接層，保留前100層，再接一個1*1*1024的全卷積層（100層輸出是2048，爲了降維，再引入了一個1*1的卷積層）。

k^2(C+1)的conv: ResNet101的輸出是W*H*1024，用K^2(C+1)個1024*1*1的卷積核去卷積即可得到K^2(C+1)個大小爲W*H的position sensitive的score map。這步的卷積操作就是在做prediction。k = 3，表示把一個ROI劃分成3*3，對應的9個位置分別是：上左（左上角），上中，上右，中左，中中，中右，下左，下中，下右（右下角），如圖Figuire 3。

k^2(C+1)個feature map的物理意義: 共有k*k = 9個顏色，每個顏色的立體塊（W*H*(C+1)）表示的是不同位置存在目標的概率值（第一塊黃色表示的是左上角位置，最後一塊淡藍色表示的是右下角位置）。共有k^2*(C+1)個feature map。每個feature map，z(i,j,c)是第i+k(j-1)個立體塊上的第c個map（1<= i,j <=3）。(i,j)決定了9種位置的某一種位置，假設爲左上角位置（i=j=1），c決定了哪一類，假設爲person類。在z(i,j,c)這個feature map上的某一個像素的位置是（x,y），像素值是value，則value表示的是原圖對應的(x,y)這個位置上可能是人（c=‘person’）且是人的左上部位（i=j=1）的概率值。

ROI pooling: 就是faster RCNN中的ROI pooling，也就是一層的SPP結構。主要用來將不同大小的ROI對應的feature map映射成同樣維度的特徵，思路是不論對多大的ROI，規定在上面畫一個n*n 個bin的網格，每個網格里的所有像素值做一個pooling（平均），這樣不論圖像多大，pooling後的ROI特徵維度都是n*n。注意一點ROI pooling是每個feature map單獨做，不是多個channel一起的。

ROI pooling的輸入和輸出：ROI pooling操作的輸入（對於C+1個類）是k^2*(C+1)*W' *H'（W'和H'是ROI的寬度和高度）的score map上某ROI對應的那個立體塊，且該立體塊組成一個新的k^2*(C+1)*W' *H'的立體塊：每個顏色的立體塊（C+1）都只摳出對應位置的一個bin，把這k*k個bin組成新的立體塊，大小爲（C+1）*W'*H'。例如，下圖中的第一塊黃色只取左上角的bin，最後一塊淡藍色只取右下角的bin。所有的bin重新組合後就變成了類似右圖的那個薄的立體塊（圖中的這個是池化後的輸出，即每個面上的每個bin上已經是一個像素。池化前這個bin對應的是一個區域，是多個像素）。ROI pooling的輸出爲爲一個（C+1）*k*k的立體塊，如下圖中的右圖。更詳細的有關ROI pooling的操作如公式（1）所示：

vote投票：k*k個bin直接進行求和（每個類單獨做）得到每一類的score，並進行softmax得到每類的最終得分，並用於計算損失

損失函數：和faster RCNN類似，由分類loss和迴歸loss組成，分類用交叉熵損失（log loss），迴歸用L1-smooth損失

訓練的樣本選擇策略：online hard example mining (OHEM，參考文獻1) 。主要思想就是對樣本按loss進行排序，選擇前面loss較小的，這個策略主要用來對負樣本進行篩選，使得正負樣本更加平衡。

訓練細節：
- decay = 0.0005
- momentum = 0.9
- single-scale training: images are resized such that the scale (shorter side of image) is 600 pixels [6, 18].
- 8 GPUs (so the effective mini-batch size is 8×), each GPU holds 1 image and selects B = 128 RoIs for backprop.
- fine-tune learning rate = 0.001 for 20k mini-batches, 0.0001 for 10k mini-batches on VOC.
- the 4-step alternating training between training RPN and training R-FCN.（類似於Faster RCNN）
- 使用atrous（hole算法）

實驗結果

VOC2007和VOC2010上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

深度影響對比：101深度最好！

候選區域選擇算法對比：RPN比SS，EB好！

COCO庫上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

效果示例：

總結

R-FCN是在Faster R-CNN的框架上進行改造，第一，把base的VGG16換車了ResNet，第二，把Fast R-CNN換成了先用卷積做prediction，再進行ROI pooling。由於ROI pooling會丟失位置信息，故在pooling前加入位置信息，即指定不同score map是負責檢測目標的不同位置。pooling後把不同位置得到的score map進行組合就能復現原來的位置信息。

參考文獻

A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.

論文閱讀 R-FCN: Object Detection via Region-based Fully Convolutional Networks

R-FCN論文閱讀（R-FCN: Object Detection via Region-based Fully Convolutional Networks ）

目錄

作者及相關鏈接

方法概括

R-FCN解決問題——目標檢測

整個R-FCN的結構

R-FCN的idea出發點（關鍵思想）

方法細節

實驗結果

VOC2007和VOC2010上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

深度影響對比：101深度最好！

候選區域選擇算法對比：RPN比SS，EB好！

COCO庫上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

效果示例：

總結

參考文獻

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Faster R-CNN+ZF 訓練模型 Matlab版本

R-FCN+ResNet-50 訓練模型

論文翻譯基於R-FCN的物體檢測

從RCNN到Faster RCNN 的發展

YOLOv2訓練：製作VOC格式的數據集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結