【AAAI2017】TextBoxes:A Fast Text Detector with a Single Deep Neural Network

本文轉載自:

http://www.cnblogs.com/lillylin/p/6204099.html


XiangBai——【AAAI2017】TextBoxes:A Fast Text Detector with a Single Deep Neural Network


 

目錄

  • 作者和相關鏈接
  • 方法概括
  • 創新點和貢獻
  • 方法細節
  • 實驗結果
  • 總結與收穫點

 


  作者和相關鏈接

    • 作者

方法概括

  1. 文章核心

    • 改進版的SSD用來解決文字檢測問題
  2. 端到端識別的pipeline:

    • Step 1: 圖像輸入到修改版SSD網絡中 + 非極大值抑制(NMS)→ 輸出候選檢測結果
    • Step 2: 候選檢測結果 + CRNN進行單詞識別 → 新的檢測結果 + 識別結果
  3. 方法的性能

    • 多尺度版本-定位:ICDAR2011-0.85(f),ICDAR2013-0.85(f),0.73s/per image
    • 單尺度版本-定位ICDAR2011-0.80(f),ICDAR2013-0.80(f),0.09s/per image
  4. 改進的SSD的地方:

    • default box的長寬比進行修改(長條形),使其更適合文字檢測(單詞)
    • 作爲classifier的卷積濾波器大小從3*3變成1*5,更適合文字檢測
    • SSD原來爲多類檢測問題,現在轉爲單類檢測問題
    • 從輸入圖像爲單尺度變爲多尺度
    • 利用識別來調整檢測的結果(text spotting)

創新點和貢獻

  1. 創新點

    • 把SSD進行修改,使其適用於文字檢測(SSD本身對小目標識別不魯棒)
  2. 貢獻

    • 提出一個端到端可訓練的非常簡潔的文字檢測框架(SSD本身是single stage的,不像普通方法需要有多步驟組成)
    • 提出一個完整的端到端識別的文字檢測+識別框架
    • 實驗方法結果好,速度快

方法細節

  1. 相關背景——文字識別的任務

    • 文字檢測
    • 文字/單詞識別
    • 端到端文字識別 = 文字 + 識別
    • text spotting:和文字檢測不同的是,可以利用帶字典的文字識別進行調整檢測結果,最終是用文字檢測的結果進行評判
  2. 相關背景——SSD

    • SSD的網絡結構
    • SSD的default box
    • Fig. 1: SSD framework. (a) SSD only needs an input image and ground truth boxes for each object during training. In a convolutional fashion, we evaluate a small set (e.g. 4) of default boxes of different aspect ratios at each location in several feature maps with different scales (e.g.× and × in (b) and (c)). For each default box, we predict both the shape offsets and the confidences for all object categories ((c1; c2· · · ; cp)). At training time, we first match these default boxes to the ground truth boxes. For example, we have matched two default boxes with the cat and one with the dog, which are treated as positives and the rest as negatives. The model loss is a weighted sum between localization loss (e.g. Smooth L1 [6]) and confidence loss (e.g. Softmax). 

  3. 相關背景——CRNN

    • CRNN的網絡結構
  4. TextBoxes與SSD網絡結構對比

    • TextBoxes網絡結構
    • SSD 網絡結構
  5. Text-box layers的輸出

     (與SSD一樣)

    •  

  6. TextBoxes與SSD不同的修改細節

    • default box長寬比

      • (右邊圖)Figure 2: Illustration of default boxes for a 4*4 grid. For better visualization, only a column of default boxes whose aspect ratios 1 and 5 are plotted. The rest of the aspect ratios are 2,3,7 and 10, which are placed similarly. The black (aspect ratio: 5) and blue (ar: 1) default boxes are centered in their cells. The green (ar: 5) and red (ar: 1) boxes have the same aspect ratios and a vertical offset(half of the height of the cell) to the grid center respectively 

    • 卷積濾波器大小

    • 損失函數

      •  

  7. 多尺度輸入

    •  

  8. TextBoxes+CRNN進行識別

    •  

 

 

 

 

 

 

實驗結果

  1. 定位

  2. text spotting和端到端識別

    •  

  3. 效果展示

總結與收穫點

  1. 原始的SSD是無法直接用在文字上的,需要進行許多修改才能達到比較好的效果,這一點作者在實驗中也證明了
  2. 現在越來越多用Faster r-cnn,ssd,yolo,這類一般的目標檢測方法進行修改後用在特定的目標檢測上(例如文字,行人),這些方法不但速度快,而且魯棒性也高,很重要一點,越來越傾向於端到端訓練,這是因爲single stage和傳統的step-wise的方法相比有很多優勢,例如,總體訓練簡單,沒有stage銜接上的性能損耗,沒有逐步的誤差積累等等;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章