基於百度AI的雲貓OCR開發實錄之評測篇

概述

筆者是在2017年接觸百度雲服務平臺的，在這裏我也稱之爲百度AI 。“AI”這個詞真的很奇妙，它來源於英語詞組“Artificial Intelligence”，取首字母就成了AI ，而與此同時，中文AI的發音就是“愛”，這是巧合嗎？還是說大自然的安排？

現在回到話題，本文是評測篇，因爲筆者根據百度AI提供的函數接口，自行編程實現了一款OCR軟件——雲貓OCR。雲貓OCR大部分的代碼開發是在2017年底前完成的，之所以雪藏到現在，是因爲筆者的一些私人事務（小孩出生等）——我是利用業餘時間進行軟件開發的，所以中斷了大概一年多的時間，現在纔有空繼續這個項目。因爲本文主要是評測，所以我不會說太多關於編程代碼的事，適當的時候我會考慮寫個代碼篇，請各位看官期待一下。

評測的具體內容

準備工作

在使用雲貓OCR之前，我們必須先去百度雲官網進行註冊賬號，有了賬號以後，我們還要去具體的雲服務項目下申請API Key和Secret Key ，一般這兩個Key是用戶各人保管的，不能隨便透露給外人。因爲百度雲現在已經正式收費，而用戶每人每天的免費調用次數都是有限的，提高限額需要支付費用，用戶使用百度雲AI接口的依據主要就是這兩個Key，所以我們要保管好。下面是簡單的準備工作圖片說明：

正式使用雲貓OCR

用戶有了百度雲API Key和Secret Key之後，就可以正式使用雲貓OCR了。具體使用步驟如下：

評測的具體內容

首先介紹一下雲貓OCR調用的百度AI的主要接口，首先是通用文字識別（帶位置版），其次是通用文字識別（帶位置高精度版），最後是表格文字識別，下面依次介紹這三種識別。

通用文字識別（帶位置版）和通用文字識別（帶位置高精度版）的混合使用

如上圖所示，用戶可以選擇多種語言（包括德語、法語、西班牙語等等），選擇好後點擊文字識別即可。因爲百度雲提供的高精度文字識別接口只支持中英文，而通用的文字識別支持除中英文以外的多種語言，所以筆者在編寫軟件中，這兩種接口是混合使用的，具體怎麼混合使用請看代碼篇。一般情況下，高精度的文字識別效果比通用的好，但也比較耗時。

本軟件支持識別的文字結果在本機保存爲文件，具體如下圖操作：

保存的文件是rtf格式，可以用WPS或者Office Word打開。下面再給出一次性識別20張圖片的統計結果圖示：

從上圖可以看出，百度雲的文字識別結果速度還是不錯的，識別速度是平均大概2-3秒一張圖。

表格文字識別

表格文字識別的主要步驟如下圖所示：

從上圖可以看出，表格文字識別的速度比普通文字識別要慢一些，大概需要5-6秒。

評測總結：百度OCR對於印刷體的識別還是不錯的，比起以前的OCR軟件來說，百度OCR可以說是革命性的進步。當然，它也有自己的短板。比如手寫體的識別，筆者還沒有評測，但百度雲通用文字高精度接口對手寫體的識別是較差的。再比如QPS併發，我的理解是可以提高OCR文字識別的速度，對於大量的圖片文字識別來說尤其是重要，可以節省大量時間。但遺憾的是，百度雲對併發好像做的不太好，程序不一定支持QPS併發，這個缺點我們也是希望百度後面能夠有所改正。

附雲貓OCR下載地址：

https://ai.baidu.com/forum/topic/show/955975

2019年9月11日

基於百度AI的雲貓OCR開發實錄之評測篇

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習06——小案例

評估統計算法在銀行僞造鈔票檢測中的價值

C# Xmlserializer 程序集內存泄露

雲狐語音識別軟件視頻演示及代碼簡明解析

雲貓OCR使用視頻及下載

雲狐語音識別軟件演示及代碼簡明解析

C#編程實現判斷素數的方法

C#編程實現階乘的兩種方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結