本次安裝的軟件版本及下載地址
1、tesseract-ocr 3.04
地址:wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
2、leptonica-1.72
地址:http://www.leptonica.com/source/leptonica-1.72.tar.gz
安裝步驟
1、首先安裝leptonica依賴包
執行命令:
yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2、編譯安裝leptonica
執行命令步驟:
1)下載
wget http://www.leptonica.com/source/leptonica-1.72.tar.gz
2)解壓
tar -xzvf leptonica-1.72.tar.gz
3)編譯
cd leptonica-1.72 /*進入解壓後的文件*/
./configure
4)安裝
make && make install
3、編譯安裝Tesseract-ocr3.04.00.tar.gz
1)下載
wget wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
2)解壓
tar -xvzf 3.04.00.tar.gz
3)編譯
cd tesseract-3.04.00
./configure
4)安裝
make && make install
5)上傳語言識別庫,我用的是英文和中文識別庫
下載地址:https://codeload.github.com/tesseract-ocr/langdata/zip/master
將將語言庫中eng下的所有文件上傳到/user/local/share/tessdata下面
下載識別庫:https://raw.githubusercontent.com/tesseract-ocr/tessdata/master該路徑下面有所有的識別庫
下載:eng.traineddata chi_sim.traineddata
將這兩個庫也上傳到/user/local/share/tessdata下面。
4測試
這是我要識別的圖片
執行命令:tesseract 2.jpg out -l chi_sim
找到out.txt文件打開我的內容是
已影響63人加入全民閱讀行列超過了99%的用戶