在我寫的前面一篇博客中,是把tesseract-ocr添加到系統環境變量裏,那麼如果不使用系統環境變量,該如何使用pytesseract了?
1 自定義tesseract目錄
我們在Python安裝目錄裏找到我們安裝的第三方模塊pytesseract,如下目錄裏E:\Conda\envs\python36\Lib\site-packages\pytesseract
使用Notepad++打開文件pytesseract.py
找到tesseract_cmd = ‘tesseract’,我們可以發現,這行命令是調用tesseract這個執行程序來進行字符識別的,當我們把tesseract.exe的目錄設置了環境變量,是可以直接調用這個程序。
我們在這裏改成tesseract.exe的目錄也是可以的
將tesseract_cmd改寫成
tesseract_cmd = 'E:/Tesseract-OCR4.1/tesseract'
或者也可以加上後綴名.exe
tesseract_cmd = 'E:/Tesseract-OCR4.1/tesseract.exe'
保存關閉後就可以了。
2 自定義tessdata目錄
在我電腦中tessdata的目錄是E:\Tesseract-OCR4.1\tessdata
因此可以自定義tessdata目錄
#自定義tessdata目錄
tessdata_dir_config ='--tessdata-dir "E:/Tesseract-OCR4.1/tessdata"'
在Python中調用pytesseract進行識別的代碼如下:
import pytesseract
from PIL import Image
img=Image.open('test.png')
#自定義tessdata目錄
tessdata_dir_config ='--tessdata-dir "E:/Tesseract-OCR4.1/tessdata"'
code=pytesseract.image_to_string(img,config=tessdata_dir_config,lang='chi_sim+eng')
print(code)