環境: win10,python3.7,vs code;
首先下載tesseract
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe
我裝在了F盤 在路徑下敲命令
tesseract –v 可以看版本號
tesseract --list-langs 查看Tesseract-OCR支持語言
下好後需要改文件
找到python路徑下 Lib\site-packages\pytesseract\pytesseract.py
將#tesseract_cmd = 'tesseract' 改爲:tesseract_cmd = 'F:/Tesseract-OCR/tesseract.exe'(目錄根據自己tesseract的安裝路徑而定)
在系統變量path中追加 F:\Tesseract-OCR\tessdata
新建變量 TESSDATA_PREFIX
接下來就可以在python代碼中嘗試了
圖片爲:
結果:
感覺效果一般
如果想識別其他語言,可以從語言庫中下載,地址:https://github.com/tesseract-ocr/tessdata
將下好的.traineddata放到tessdata目錄下
接下來就可以用chi_sim(中文簡體解析)
參考文章:https://www.cnblogs.com/qq21270/p/7704952.html