pytesseract自定義tesseract目錄和tessdata目錄

在我寫的前面一篇博客中,是把tesseract-ocr添加到系統環境變量裏,那麼如果不使用系統環境變量,該如何使用pytesseract了?

1 自定義tesseract目錄

我們在Python安裝目錄裏找到我們安裝的第三方模塊pytesseract,如下目錄裏E:\Conda\envs\python36\Lib\site-packages\pytesseract
在這裏插入圖片描述
使用Notepad++打開文件pytesseract.py
在這裏插入圖片描述
找到tesseract_cmd = ‘tesseract’,我們可以發現,這行命令是調用tesseract這個執行程序來進行字符識別的,當我們把tesseract.exe的目錄設置了環境變量,是可以直接調用這個程序。
我們在這裏改成tesseract.exe的目錄也是可以的
將tesseract_cmd改寫成

tesseract_cmd = 'E:/Tesseract-OCR4.1/tesseract'

或者也可以加上後綴名.exe

tesseract_cmd = 'E:/Tesseract-OCR4.1/tesseract.exe'

在這裏插入圖片描述
保存關閉後就可以了。

2 自定義tessdata目錄

在我電腦中tessdata的目錄是E:\Tesseract-OCR4.1\tessdata

在這裏插入圖片描述
因此可以自定義tessdata目錄

#自定義tessdata目錄
tessdata_dir_config ='--tessdata-dir "E:/Tesseract-OCR4.1/tessdata"'

在Python中調用pytesseract進行識別的代碼如下:

import pytesseract
from PIL import Image
img=Image.open('test.png')
#自定義tessdata目錄
tessdata_dir_config ='--tessdata-dir "E:/Tesseract-OCR4.1/tessdata"'
code=pytesseract.image_to_string(img,config=tessdata_dir_config,lang='chi_sim+eng')
print(code)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章