[論文復現]Detecting Text in Natural Image with Connectionist Text Proposal Network

本文轉載自:

http://blog.csdn.net/peaceinmind/article/details/53215090


最近一直在復現這篇論文,除了數據外已基本完成,可是沒想到昨天開源了[code],只能說我等水貨趕不上開源的速度,但是又不開源數據,然後默默地發現,做深度學習這等東西,代碼不重要,重要的是數據,以後說不定就有數據商店了。現附上個人的一些中間結果(只訓練了200多張圖片,網絡架構,參數等跟作者的有些出入),然後來說說這篇論文。


 

爲什麼只是說說這篇論文還不是分析這邊論文,主要是這篇論文真是比較簡單,如果比較清楚RPN,基本沒什麼說的。論文的思想主要借鑑了faster rcnnrpn思想,主要的不同點在於作者觀測到RPN比較難預測出整個文本行的框,而將文本行分成一個一個的小框去預測,小框是固定寬度所以主要是預測高度,如果用的是VGG conv5的特徵,那麼高度就是16。(另外插一個小知識點,本人以前也錯過,卷積層的sizepool層的數量沒關係,跟stride有關係)

第二點是加入了雙向LSTM,本人還沒有分析到雙向LSTM具體的作用有多少,因爲在其他論文中不需要雙向LSTM,依靠感受野也能分析出來。最後一個小不同就是爲了精確定位加入了side regression


問題:

1沒有很好地處理多方向的文本行

2訓練的時候由於有regressionLSTM,需要小心控制梯度爆炸。


2017/2/15更新

根據作者提供的測試代碼重新修改了訓練代碼(發現自己寫的跟作者的還是有比較大的差距的),加入了side refinement,數據方面自己標註了2000多張圖片,最後的訓練效果肯定跟作者的有出入



另外個人感覺作者將一個文本行分解成一個一個小塊來做是比較實用的策略,降低了特徵空間,又不會像另外一篇論文那種使用像素級labeling把問題搞得非常複雜


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章