Tesseract的OCR作爲一款字符識別的引擎,它最先是由惠普實驗室於1985年開始研發,至1995年時已經成爲OCR業內最準確的三款識別引擎之一。後來,HP不久便決定放棄OCR業務,Tesseract也從此塵封。數年以後,HP意識到,與其將Tesseract束之高閣,不如貢獻給開源軟件業,讓其重煥新生。在2005年,Tesseract由美國內華達州信息技術研究所獲得,並委託Google對其進行改進、優化工作。
Tesseract目前已作爲開源項目發佈在Google Project,它與Leptonica圖片處理庫結合,可以讀取各種格式的圖像並將它們轉化成超過60種語言的文本,我們還可以不斷訓練自己的庫,使圖像轉換文本的能力不斷增強。如果團隊深度需要,還可以以它爲模板,開發出符合自身需求的OCR引擎。
下載地址爲http://code.google.com/p/tesseract-ocr/。
基於VS2010+Opencv+Tesseract-3.02.02 快速實現字符識別:
對於編譯這塊此文不做描述,如下是已經編譯好的Tesseract-3.02.02庫。
https://download.csdn.net/download/luxgang/12325162
移植步驟:
1. 拷貝庫文件和頭文件到工程中:
將下載後的文件放入工程中:
二. VS工程中配置頭文件和庫文件:
項目->屬性->VC++目錄:
三、連接器指定靜態庫:
項目->屬性-> 鏈接器-> 輸入->附加依賴庫
debug 添加leptonica 和 tesseract 目錄中的 debug lib:
libtesseract302d.lib
giflib416-static-mtdll-debug.lib
libjpeg8c-static-mtdll-debug.lib
liblept168d.lib
liblept168-static-mtdll-debug.lib
libpng143-static-mtdll-debug.lib
libtiff394-static-mtdll-debug.lib
zlib125-static-mtdll-debug.lib
Relese 版本的話,添加也是跟上面一樣配置,只是依賴庫文件名不一樣,不帶d 或者debug 的lib 文件名。
四、工程代碼中添加使用:
添加頭文件:
#include "allheaders.h"
#include "baseapi.h"
#include "strngs.h"
添加實現代碼:
// 使用 tesseract 進行數字識別
const char* lang = "eng";//eng
string numText;
tesseract::TessBaseAPI *tess = new tesseract::TessBaseAPI; // 新建 tesseract 基類
tess->Init(NULL,lang, tesseract::OEM_DEFAULT); // 初始化
tess->SetPageSegMode(tesseract::PSM_AUTO); // 設置識別模式
tess->SetImage(pixImage);
numText = string(tess->GetUTF8Text());
詳細代碼請查看:
// test_ocrDlg.cpp : 實現文件
//
#include "stdafx.h"
#include "test_ocr.h"
#include "test_ocrDlg.h"
#include "afxdialogex.h"
////////////////////////////////////////////////
#include "allheaders.h"
#include "baseapi.h"
#include "strngs.h"
#include <opencv2\opencv.hpp>
#include <opencv2/imgproc/imgproc.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <iostream>
using namespace cv;
using namespace std;
/////////////////////////////////////////////////////
#ifdef _DEBUG
#define new DEBUG_NEW
#endif
// 用於應用程序“關於”菜單項的 CAboutDlg 對話框
class CAboutDlg : public CDialogEx
{
public:
CAboutDlg();
// 對話框數據
enum { IDD = IDD_ABOUTBOX };
protected:
virtual void DoDataExchange(CDataExchange* pDX); // DDX/DDV 支持
// 實現
protected:
DECLARE_MESSAGE_MAP()
};
CAboutDlg::CAboutDlg() : CDialogEx(CAboutDlg::IDD)
{
}
void CAboutDlg::DoDataExchange(CDataExchange* pDX)
{
CDialogEx::DoDataExchange(pDX);
}
BEGIN_MESSAGE_MAP(CAboutDlg, CDialogEx)
END_MESSAGE_MAP()
// Ctest_ocrDlg 對話框
Ctest_ocrDlg::Ctest_ocrDlg(CWnd* pParent /*=NULL*/)
: CDialogEx(Ctest_ocrDlg::IDD, pParent)
{
m_hIcon = AfxGetApp()->LoadIcon(IDR_MAINFRAME);
}
void Ctest_ocrDlg::DoDataExchange(CDataExchange* pDX)
{
CDialogEx::DoDataExchange(pDX);
DDX_Control(pDX, IDC_EDIT2, mcedit);
}
BEGIN_MESSAGE_MAP(Ctest_ocrDlg, CDialogEx)
ON_WM_SYSCOMMAND()
ON_WM_PAINT()
ON_WM_QUERYDRAGICON()
ON_BN_CLICKED(IDC_BUTTON1, &Ctest_ocrDlg::OnBnClickedButton1)
ON_BN_CLICKED(IDC_BUTTON2, &Ctest_ocrDlg::OnBnClickedButton2)
END_MESSAGE_MAP()
// Ctest_ocrDlg 消息處理程序
BOOL Ctest_ocrDlg::OnInitDialog()
{
CDialogEx::OnInitDialog();
// 將“關於...”菜單項添加到系統菜單中。
// IDM_ABOUTBOX 必須在系統命令範圍內。
ASSERT((IDM_ABOUTBOX & 0xFFF0) == IDM_ABOUTBOX);
ASSERT(IDM_ABOUTBOX < 0xF000);
CMenu* pSysMenu = GetSystemMenu(FALSE);
if (pSysMenu != NULL)
{
BOOL bNameValid;
CString strAboutMenu;
bNameValid = strAboutMenu.LoadString(IDS_ABOUTBOX);
ASSERT(bNameValid);
if (!strAboutMenu.IsEmpty())
{
pSysMenu->AppendMenu(MF_SEPARATOR);
pSysMenu->AppendMenu(MF_STRING, IDM_ABOUTBOX, strAboutMenu);
}
}
// 設置此對話框的圖標。當應用程序主窗口不是對話框時,框架將自動
// 執行此操作
SetIcon(m_hIcon, TRUE); // 設置大圖標
SetIcon(m_hIcon, FALSE); // 設置小圖標
// TODO: 在此添加額外的初始化代碼
return TRUE; // 除非將焦點設置到控件,否則返回 TRUE
}
void Ctest_ocrDlg::OnSysCommand(UINT nID, LPARAM lParam)
{
if ((nID & 0xFFF0) == IDM_ABOUTBOX)
{
CAboutDlg dlgAbout;
dlgAbout.DoModal();
}
else
{
CDialogEx::OnSysCommand(nID, lParam);
}
}
// 如果向對話框添加最小化按鈕,則需要下面的代碼
// 來繪製該圖標。對於使用文檔/視圖模型的 MFC 應用程序,
// 這將由框架自動完成。
void Ctest_ocrDlg::OnPaint()
{
if (IsIconic())
{
CPaintDC dc(this); // 用於繪製的設備上下文
SendMessage(WM_ICONERASEBKGND, reinterpret_cast<WPARAM>(dc.GetSafeHdc()), 0);
// 使圖標在工作區矩形中居中
int cxIcon = GetSystemMetrics(SM_CXICON);
int cyIcon = GetSystemMetrics(SM_CYICON);
CRect rect;
GetClientRect(&rect);
int x = (rect.Width() - cxIcon + 1) / 2;
int y = (rect.Height() - cyIcon + 1) / 2;
// 繪製圖標
dc.DrawIcon(x, y, m_hIcon);
}
else
{
CDialogEx::OnPaint();
}
}
//當用戶拖動最小化窗口時系統調用此函數取得光標
//顯示。
HCURSOR Ctest_ocrDlg::OnQueryDragIcon()
{
return static_cast<HCURSOR>(m_hIcon);
}
void Ctest_ocrDlg::OnBnClickedButton1() // 加載圖片
{
// TODO: 在此添加控件通知處理程序代碼
CImage myImage;
CFileDialog fileDlg(TRUE, NULL, NULL, OFN_ALLOWMULTISELECT, _T("Picture Files \
(*.bmp *.jpg *png *.jpeg)|*bmp;;*jpg;;*png;;*jpeg||"), AfxGetMainWnd());
if (fileDlg.DoModal() == IDOK)
{
POSITION mPos = fileDlg.GetStartPosition();
if (mPos != NULL)
{
pathName = (LPCTSTR)fileDlg.GetPathName();
if (!myImage.IsNull())//判斷圖象是否爲空,如果不爲空則先釋放掉
myImage.Destroy();
CEdit* cfolder;
cfolder = (CEdit*) GetDlgItem(IDC_EDIT1);
cfolder->SetWindowText(pathName); // 加載路徑名顯示到編輯框中
myImage.Load(pathName); // 加載到 CImage
}
}
CRect rect;
CWnd *pWnd = GetDlgItem(IDC_STATIC);
CDC *pDC = pWnd->GetDC();
//第1個控件
pWnd->GetClientRect(&rect); //取得客戶區尺寸
pDC->SetStretchBltMode(STRETCH_HALFTONE); //保持圖片不失真
myImage.Draw(pDC->m_hDC, rect); //已控件尺寸大小來繪圖
ReleaseDC(pDC);
myImage.Destroy();
//粘貼、複製到:打開button,可以選擇文件路徑打開位圖顯示在picture control裏。
}
PIX* cvtMat2PIX(Mat imgGray)
{
int cols = imgGray.cols;
int rows = imgGray.rows;
PIX *pixS = pixCreate(cols, rows, 8);
for (int i = 0; i < rows; i++)
for (int j = 0; j < cols; j++)
pixSetPixel(pixS, j, i, (l_uint32)imgGray.at<uchar>(i, j));
return pixS;
}
////////////////////////////////////////////////////////////////////////////////////////////////
wchar_t * Utf_8ToUnicode(char* szU8)
{
//UTF8 to Unicode
//由於中文直接複製過來會成亂碼,編譯器有時會報錯,故採用16進制形式
//預轉換,得到所需空間的大小
int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, strlen(szU8), NULL, 0);
//分配空間要給'\0'留個空間,MultiByteToWideChar不會給'\0'空間
wchar_t* wszString = new wchar_t[wcsLen + 1];
//轉換
::MultiByteToWideChar(CP_UTF8, NULL, szU8, strlen(szU8), wszString, wcsLen);
//最後加上'\0'
wszString[wcsLen] = '\0';
return wszString;
}
//將寬字節wchar_t*轉化爲單字節char*
char* UnicodeToAnsi( const wchar_t* szStr )
{
int nLen = WideCharToMultiByte( CP_ACP, 0, szStr, -1, NULL, 0, NULL, NULL );
if (nLen == 0) {
return NULL;
}
char* pResult = new char[nLen];
WideCharToMultiByte( CP_ACP, 0, szStr, -1, pResult, nLen, NULL, NULL );
return pResult;
}
void Ctest_ocrDlg::OnBnClickedButton2() // 識別
{
// TODO: 在此添加控件通知處理程序代碼
if (pathName.IsEmpty())
{
MessageBox(TEXT("路徑名非法!"), TEXT("路徑"));
return;
}
string filename = CT2A(pathName.GetString());
#if 1
Mat srcimage = imread(filename);//filename
if (!srcimage.data)
{
MessageBox(TEXT("圖像數據爲空!"), TEXT("imread"));
return;
}
Mat grayimg;
cvtColor(srcimage, grayimg, CV_BGR2GRAY);
imshow("grayimg", grayimg);
GaussianBlur(grayimg, grayimg, Size(5,5), 2, 2);
// imshow("Gaussianimg2", grayimg);
Mat binImage;
threshold(grayimg, binImage, 100,255,THRESH_BINARY_INV);//THRESH_BINARY_INV|THRESH_OTSU
/* adaptiveThreshold(~grayimg, binImage, 255, ADAPTIVE_THRESH_MEAN_C, THRESH_BINARY_INV, 15, -2);*/
Mat kernel = getStructuringElement(MORPH_RECT, Size(3,3), Point(-1, -1));
// erode(binImage, binImage, kernel, Point(-1,-1), 1, 0);
morphologyEx(binImage, binImage, MORPH_OPEN, kernel, Point(-1, -1), 1, 0);
imshow("binImage", binImage);
//imwrite("F:/bin.tif", binImage);
#endif
#if 0
const char *image_path = filename.c_str();
// 使用 tesseract 進行數字識別
tesseract::TessBaseAPI api;
api.Init(NULL,"eng",tesseract::OEM_DEFAULT);//chi_sim
api.SetPageSegMode(tesseract::PSM_AUTO);
// FILE* fin = fopen(image_path, "rb");
// if (fin == NULL) {
// /*printf("Cannot open input file: %s\n", image_path);*/
// MessageBox(TEXT("Cannot open input file."), TEXT("fopen:"));
// exit(2);
// }
// fclose(fin);
//
PIX *pixs;
if ((pixs = pixRead(image_path)) == NULL) {
MessageBox(TEXT("Unsupported image type."), TEXT("pixRead:"));
exit(3);
}
pixDestroy(&pixs);
STRING text_out;
if (!api.ProcessPages(image_path, NULL, 0, &text_out)) {
MessageBox(TEXT("Error during processing."), TEXT("ProcessPages:"));
}
string ocr_result = text_out.string();
CString CS_rel(ocr_result.c_str());
MessageBox(CS_rel, TEXT("識別結果爲:"));
// //顯示中文
// string ocr_result = text_out.string();
// wchar_t* tempchar = Utf_8ToUnicode((char*)ocr_result.c_str());
// char* resulttemp = UnicodeToAnsi(tempchar);
// CString CS_rel(resulttemp);
// MessageBox(CS_rel, TEXT("識別結果爲:"));
#else
PIX *pixImage = cvtMat2PIX(binImage); // 將圖片由 Mat 轉換成 Pix 格式
// 使用 tesseract 進行數字識別
const char* lang = "eng";//eng
string numText;
tesseract::TessBaseAPI *tess = new tesseract::TessBaseAPI; // 新建 tesseract 基類
tess->Init(NULL,lang, tesseract::OEM_DEFAULT); // 初始化
tess->SetPageSegMode(tesseract::PSM_AUTO); // 設置識別模式
tess->SetImage(pixImage);
numText = string(tess->GetUTF8Text());
/*CString CS_rel(numText.c_str());*/
// MessageBox(CS_rel, TEXT("識別結果爲:"));
// 顯示
wchar_t* tempchar = Utf_8ToUnicode((char*)numText.c_str());
char* resulttemp = UnicodeToAnsi(tempchar);
CString CS_rel(resulttemp);
// MessageBox(CS_rel, TEXT("識別結果爲:"));
mcedit.SetWindowText(CS_rel);
#endif
}
工程代碼可在如下鏈接進行下載:
https://download.csdn.net/download/luxgang/12325248
添加語言包:
debug 版本中添加 tessdata 目錄,下面放入語言包文件
同理,如果relese 版本對應也放入此目錄和文件。
如果不放在此目錄,就必須安裝 tesseract window 版本,然後設置環境變量。
但是一般我們直接將語言包放在工程目錄下,方便執行,所以最後採用第一種。
如有不懂可私信聯繫或下方留言。