tesseract windows環境下安裝常見問題及解決

原創

DJh_1

2018-09-18 02:33

在學習python網絡數據採集一書中，學習到11章——圖片處理時，作者介紹了tesseract-ocr光學文字識別這一內容，隨後在安裝該工具的過程中遇到了很多的問題，在這裏將其全部羅列出來，供讀者參考。

1.安裝tesseract

tesseract不是python的庫文件，因此需要從網上下載安裝，安裝文件下載請點這裏，進入網頁後，根據需要選擇高亮的藍色字體進行下載，下載後按默認安裝即可。

2.配置tesseract的環境變量

tesseract實際上是在windows命令行模式下使用的工具，因此需要配置其環境變量。配置方法如下：打開我的電腦屬性——更改設置——高級——環境變量，在系統變量中添加tesseract的路徑。

win+R輸入cmd打開命令行工具，輸入tesseract -v，出現如下說明即配置成功

3、TESSDATA_PREFIX變量設置

到這一步環境變量配置完成，但是此時直接使用tesseract對圖片進行識別會提示錯誤

例如，在cmd窗口中使用命令tesseract 1.jpg res

出現如下的錯誤提示

Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

主要原因在於沒有設置TESSDATA_PREFIX變量，同樣在環境變量中添加該變量可解決問題

4、命令行使用注意點

tesseract的命令格式爲 tesseract image.(jpg,png...) res 其中res爲最後的輸出，默認爲txt文件

注意的是在命令行中，image文件應該在執行該命令的文件夾中，否則會報錯，顯示

Error in fopenReadStream: file not found
Error in findFileFormat: image file not found
Error during processing.

因此，要麼cd到圖片文件的目錄下，要麼將圖片所在位置完整給出，如C:1\2\image.jpg

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

tesseract windows環境下安裝常見問題及解決

1.安裝tesseract

2.配置tesseract的環境變量

3、TESSDATA_PREFIX變量設置

4、命令行使用注意點

有關git的常用操作整理

linux初學者

python類中 new 和init的區別和聯繫

python 源代碼分析

非csdn文章

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結