Tesseract-ocr自己做訓練樣本庫來進行字符識別

使用默認的語言庫識別

1.安裝Tesseract

        從http://code.google.com/p/tesseract-ocr/downloads/list下載Tesseract,目前版本爲Tesseract3.02。因爲只是測試使用,這裏直接下載winodws下的安裝文件tesseract-ocr-setup-3.02.02.exe。安裝成功後會在相應磁盤上生成一個Tesseract-OCR目錄。通過目錄下的tesseract.exe程序就可以對圖像字符進行識別了。
2.準備一副待識別的圖像,這裏用畫圖工具隨便寫了一串數字,保存爲11111.jpg,如下圖所示:
3.  開始菜單打開命令行,定位到Tesseract-OCR目錄,輸入命令:

其中result表示輸出結果文件txt名稱,eng表示用以識別的語言文件爲英文,7表示把圖像看作一個單文本行。
3.  打開Tesseract-OCR目錄下的result.txt文件,看到識別的結果爲764-2316857,有2個字符識別錯誤,識別率還不是很高,那有沒有什麼方法來提供識別率呢?Tesseract提供了一套訓練樣本的方法,用以生成自己所需的識別語言庫。下面介紹一下具體訓練樣本的方法。


訓練樣本

關於如何訓練樣本,Tesseract-OCR官網有詳細的介紹http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3。這裏通過我自己做的例子來介紹一下如何進行樣本訓練。
1.下載工具jTessBoxEditor. http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/,這個工具是用來訓練樣本用的,由於該工具是用JAVA開發的,需要安裝JDK,才能運行。可以在http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 下載Java SE Development Kit 7u71,看你電腦的具體需求環境。
2.把所有的需要訓練的圖片合併爲一張tiff格式的圖片,如何合併呢?通過jTessBoxEditor中的Merge Tiff 來完成,不過他的小缺點就是隻能合併多張tiff格式的,如果你的圖片是jpg的,需要先通過格式工廠轉換爲tif。
3.合併圖像。運行jTessBoxEditor工具,在點擊菜單欄中Tools--->Merge TIFF。在彈出的對話框中選擇樣本圖像(按Shift選擇多張),合併成new.font.exp0.tif文件。
4.生成Box File文件。new.font.exp0.tif所在的目錄下打開一個命令行,輸入:

 生成的BOX文件爲new.font.exp0.box,該文件記錄了tesseract識別出來的每一個字和其位置座標。
注:Make Box File的命令格式爲:
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox  
其中lang爲語言名稱,fontname爲字體名稱,num爲序號,可以隨便定義。
5.文字校正。使用jTessBoxEditor中的Box Editor打開new.font.exp0.tif文件,需要記住的是第4步生成的new.font.exp0.box要和這個new.font.exp0.tif文件同在一個目錄下。如下圖所示,可以看出有些字符識別的不正確,可以通過該工具手動對每張圖片中識別錯誤的字符進行校正。校正完成後保存即可。


6.定義字體特徵文件。Tesseract-OCR3.01以上的版本在訓練之前需要創建一個名稱爲font_properties的字體特徵文件。

font_properties不含有BOM頭,文件內容格式如下:

<fontname> <italic> <bold> <fixed> <serif> <fraktur>  
其中fontname爲字體名稱,必須與[lang].[fontname].exp[num].box中的名稱保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值爲1或0,表示字體是否具有這些屬性。
在樣本圖片所在目錄下創建一個名稱爲font_properties的文件,
.
用記事本打開,輸入以下下內容:


這裏全取值爲0,表示字體不是粗體、斜體等等。
7.生成語言文件
在樣本圖片所在目錄下創建一個批處理文件rem,

輸入如下內容:
echo Run Tesseract for Training..  
tesseract.exe new.font.exp0.tif new.font.exp0 nobatch box.train  
echo Compute the Character Set..  
unicharset_extractor.exe new.font.exp0.box  
mftraining -F font_properties -U unicharset -O new.unicharset new.font.exp0.tr  
echo Clustering..  
cntraining.exe new.font.exp0.tr  
echo Rename Files..  
rename normproto new.normproto  
rename inttemp new.inttemp  
rename pffmtable new.pffmtable  
rename shapetable new.shapetable   
echo Create Tessdata..  
combine_tessdata.exe new.     (這裏new後面的 . 不能缺少

最後把批處理文件rem的後綴改爲.bat 。
將批處理通過命令行執行(call rem)。執行後的結果如下:

必須確定的是Offset 1、3、4、5、13的數據不是-1,那麼一個新的字典就算生成了。
new.traineddata是最終生成的字典。將生成的new.traineddata拷貝到Tesseract-OCR-->tessdata目錄下。以後就可以使用該該字典來識別了,例如:




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章