當我們在Windows環境下安裝了tesseract4後,需要配置環境變量
找到tesseract.exe所在的目錄
然後在系統環境變量裏的path目錄添加tesseract.exe所在的目錄
添加語言庫的環境變量,找到存放語言庫tessdata的目錄
在系統環境變量裏新建變量
變量名:TESSDATA_PREFIX
變量值:E:\tesseract-4.0.0\tessdata
這樣tesseract的環境變量就全部配置完了。
我們打開cmd命令控制檯,輸入tesseract,顯示如下信息表明tesseract.exe已經添加到path裏
檢查語言庫是否正確配置
輸入命令:tesseract --list-langs
顯示如下:
以上正確顯示錶明tesserac環境變量正確配置成功
接下來我們來識別下面這張圖片的內容
首先進入這個圖片所在的目錄
使用命令cd E:\image
使用命令
tesseract test.png out -l chi_sim+eng
然後在圖片目錄下輸入識別結果out.txt文件
打開out.txt文件發現圖片上文字已經正確識別
對命令進行詳解
tesseract test.png out -l chi_sim+eng
test.png爲圖片名稱,可以寫圖片具體路徑和名稱;out爲結果輸出保存文件名,默認爲txt文件;-l表示使用的語言庫languages;chi_sim+eng代表語言庫的名稱,chi_sim爲簡體中文,eng爲英文