深度學習 + 論文詳解: Fast R-CNN 原理與優勢

論文鏈接

p.s. 鑑於斯坦福大學公開課裏面模糊的 R-CNN 描述,這邊決定精讀對應的論文並把心得和摘要記錄於此。


前言

在機器視覺領域的物體識別分支中,有兩個主要的兩大難題需要解決:

  1. 目標圖片裏面含了幾種“物體”,幾個“物體”?
  2. 該些物體分別坐落於圖片的哪個位置?

而 R-CNN 的發明就是用來解決第二個問題的工具,第一個問題不屬於這裏的討論範圍,故略過。R-CNN 如果去除時間和計算能力的因素不看,是一個挺好的物體位置定位方法,可以根據那些被估測出可能包含目標物體的畫面,精確標定像素格邊框的位置,但是現實上最初階的 R-CNN 方法佔用了大把的時間和計算資源,是無法在視頻中實時檢測物體位置的,原因如下:

  • Multi-stage pipeline(多個互相獨立的通道)
    ... more ...
  • Slow training and detecting time
    ... more ...

而新的方法肯定必須圍繞着上面幾個問題去做修正,並且使用改進過的方法後,已經可以初步的應用在實時視頻檢測的場景中。至於改進的方法在 fast R-CNN 確立之前還有一個過度的方法:SPPnets(Spatial Pyramid Pooling networks)。


SPPnets


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章