Python 用 Tesseract識別圖片提取文本

 

環境: win10,python3.7,vs code;

 

首先下載tesseract

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

 

我裝在了F盤 在路徑下敲命令

tesseract –v 可以看版本號

tesseract --list-langs  查看Tesseract-OCR支持語言

下好後需要改文件

  找到python路徑下  Lib\site-packages\pytesseract\pytesseract.py

 


將#tesseract_cmd = 'tesseract'
改爲:tesseract_cmd = 'F:/Tesseract-OCR/tesseract.exe'(目錄根據自己tesseract的安裝路徑而定)

 

在系統變量path中追加  F:\Tesseract-OCR\tessdata

 

新建變量 TESSDATA_PREFIX

 

接下來就可以在python代碼中嘗試了

 

圖片爲:

 

結果:

感覺效果一般

如果想識別其他語言,可以從語言庫中下載,地址:https://github.com/tesseract-ocr/tessdata

將下好的.traineddata放到tessdata目錄下

接下來就可以用chi_sim(中文簡體解析)

 

 

 

 

參考文章:https://www.cnblogs.com/qq21270/p/7704952.html

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章