[論文復現]Detecting Text in Natural Image with Connectionist Text Proposal Network

原創

2020-02-26 05:54

本文轉載自：

http://blog.csdn.net/peaceinmind/article/details/53215090

最近一直在復現這篇論文，除了數據外已基本完成，可是沒想到昨天開源了[code]，只能說我等水貨趕不上開源的速度，但是又不開源數據，然後默默地發現，做深度學習這等東西，代碼不重要，重要的是數據，以後說不定就有數據商店了。現附上個人的一些中間結果（只訓練了200多張圖片,網絡架構，參數等跟作者的有些出入），然後來說說這篇論文。

爲什麼只是說說這篇論文還不是分析這邊論文，主要是這篇論文真是比較簡單，如果比較清楚RPN,基本沒什麼說的。論文的思想主要借鑑了faster rcnn的rpn思想，主要的不同點在於作者觀測到RPN比較難預測出整個文本行的框，而將文本行分成一個一個的小框去預測，小框是固定寬度所以主要是預測高度，如果用的是VGG conv5的特徵，那麼高度就是16。（另外插一個小知識點，本人以前也錯過，卷積層的size和pool層的數量沒關係，跟stride有關係）

第二點是加入了雙向LSTM，本人還沒有分析到雙向LSTM具體的作用有多少，因爲在其他論文中不需要雙向LSTM，依靠感受野也能分析出來。最後一個小不同就是爲了精確定位加入了side regression。

問題：

1沒有很好地處理多方向的文本行

2訓練的時候由於有regression和LSTM，需要小心控制梯度爆炸。

2017/2/15更新

根據作者提供的測試代碼重新修改了訓練代碼（發現自己寫的跟作者的還是有比較大的差距的），加入了side refinement,數據方面自己標註了2000多張圖片，最後的訓練效果肯定跟作者的有出入

另外個人感覺作者將一個文本行分解成一個一個小塊來做是比較實用的策略，降低了特徵空間，又不會像另外一篇論文那種使用像素級labeling把問題搞得非常複雜

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[論文復現]Detecting Text in Natural Image with Connectionist Text Proposal Network

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Faster R-CNN+ZF 訓練模型 Matlab版本

R-FCN+ResNet-50 訓練模型

論文翻譯基於R-FCN的物體檢測

從RCNN到Faster RCNN 的發展

YOLOv2訓練：製作VOC格式的數據集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結