論文鏈接
- fast R-CNN: https://arxiv.org/pdf/1504.08083.pdf
p.s. 鑑於斯坦福大學公開課裏面模糊的 R-CNN 描述,這邊決定精讀對應的論文並把心得和摘要記錄於此。
前言
在機器視覺領域的物體識別分支中,有兩個主要的兩大難題需要解決:
- 目標圖片裏面含了幾種“物體”,幾個“物體”?
- 該些物體分別坐落於圖片的哪個位置?
而 R-CNN 的發明就是用來解決第二個問題的工具,第一個問題不屬於這裏的討論範圍,故略過。R-CNN 如果去除時間和計算能力的因素不看,是一個挺好的物體位置定位方法,可以根據那些被估測出可能包含目標物體的畫面,精確標定像素格邊框的位置,但是現實上最初階的 R-CNN 方法佔用了大把的時間和計算資源,是無法在視頻中實時檢測物體位置的,原因如下:
- Multi-stage pipeline(多個互相獨立的通道)
... more ... - Slow training and detecting time
... more ...
而新的方法肯定必須圍繞着上面幾個問題去做修正,並且使用改進過的方法後,已經可以初步的應用在實時視頻檢測的場景中。至於改進的方法在 fast R-CNN 確立之前還有一個過度的方法:SPPnets(Spatial Pyramid Pooling networks)。