基於百度AI的雲貓OCR開發實錄之評測篇

  • 概述

   筆者是在2017年接觸百度雲服務平臺的,在這裏我也稱之爲百度AI 。“AI”這個詞真的很奇妙,它來源於英語詞組“Artificial Intelligence”,取首字母就成了AI ,而與此同時,中文AI的發音就是“愛”,這是巧合嗎?還是說大自然的安排?

   現在回到話題,本文是評測篇,因爲筆者根據百度AI提供的函數接口,自行編程實現了一款OCR軟件——雲貓OCR。雲貓OCR大部分的代碼開發是在2017年底前完成的,之所以雪藏到現在,是因爲筆者的一些私人事務(小孩出生等)——我是利用業餘時間進行軟件開發的,所以中斷了大概一年多的時間,現在纔有空繼續這個項目。因爲本文主要是評測,所以我不會說太多關於編程代碼的事,適當的時候我會考慮寫個代碼篇,請各位看官期待一下。

  • 評測的具體內容
  • 準備工作

   在使用雲貓OCR之前,我們必須先去百度雲官網進行註冊賬號,有了賬號以後,我們還要去具體的雲服務項目下申請API Key和Secret Key ,一般這兩個Key是用戶各人保管的,不能隨便透露給外人。因爲百度雲現在已經正式收費,而用戶每人每天的免費調用次數都是有限的,提高限額需要支付費用,用戶使用百度雲AI接口的依據主要就是這兩個Key,所以我們要保管好。下面是簡單的準備工作圖片說明:

  • 正式使用雲貓OCR

用戶有了百度雲API Key和Secret Key之後,就可以正式使用雲貓OCR了。具體使用步驟如下:

  • 評測的具體內容

   首先介紹一下雲貓OCR調用的百度AI的主要接口,首先是通用文字識別(帶位置版),其次是通用文字識別(帶位置高精度版),最後是表格文字識別,下面依次介紹這三種識別。

  1. 通用文字識別(帶位置版)和通用文字識別(帶位置高精度版)的混合使用

如上圖所示,用戶可以選擇多種語言(包括德語、法語、西班牙語等等),選擇好後點擊文字識別即可。因爲百度雲提供的高精度文字識別接口只支持中英文,而通用的文字識別支持除中英文以外的多種語言,所以筆者在編寫軟件中,這兩種接口是混合使用的,具體怎麼混合使用請看代碼篇。一般情況下,高精度的文字識別效果比通用的好,但也比較耗時。

本軟件支持識別的文字結果在本機保存爲文件,具體如下圖操作:

保存的文件是rtf格式,可以用WPS或者Office Word打開。下面再給出一次性識別20張圖片的統計結果圖示:

從上圖可以看出,百度雲的文字識別結果速度還是不錯的,識別速度是平均大概2-3秒一張圖。

  1. 表格文字識別

表格文字識別的主要步驟如下圖所示:

從上圖可以看出,表格文字識別的速度比普通文字識別要慢一些,大概需要5-6秒。

評測總結:百度OCR對於印刷體的識別還是不錯的,比起以前的OCR軟件來說,百度OCR可以說是革命性的進步。當然,它也有自己的短板。比如手寫體的識別,筆者還沒有評測,但百度雲通用文字高精度接口對手寫體的識別是較差的。再比如QPS併發,我的理解是可以提高OCR文字識別的速度,對於大量的圖片文字識別來說尤其是重要,可以節省大量時間。但遺憾的是,百度雲對併發好像做的不太好,程序不一定支持QPS併發,這個缺點我們也是希望百度後面能夠有所改正。

附雲貓OCR下載地址:

https://ai.baidu.com/forum/topic/show/955975

2019年9月11日

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章