Tesseract怎麼識別中文

前言

經過上一篇文章,我們已經成功安裝了Tesseract4.0,並且可以識別出英文了
https://blog.csdn.net/qq_43576028/article/details/102907170

那麼Tesseract要怎麼識別中文呢。

流程

去官網的GitHub上面下載中文訓練包
https://github.com/tesseract-ocr/tessdata
在這裏插入圖片描述

點擊進入,不用直接下載,可能會導致頁面崩潰,大家複製鏈接,進入迅雷下載速度更快。
在這裏插入圖片描述

下載完了之後把中文訓練包放到tessdata中
在這裏插入圖片描述

配置環境變量
在這裏插入圖片描述

在這裏插入圖片描述

開始圖片轉換(具體的圖片轉換流程在第一篇安裝教程裏面,戳這裏https://blog.csdn.net/qq_43576028/article/details/102907170

在這裏插入圖片描述

以上圖爲例
在這裏插入圖片描述

與默認的英文識別相比,在這裏我們多了一個參數:-l chi_sim

這樣tesseract就知道要去識別中文了

打開結果文件
在這裏插入圖片描述

成功

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章