BMP文件頭(小鑫's OCR)

        在之前半自動傾斜校正的基礎上,繼續完成了行分割和字分割。
      從wotsit.org查閱了一下BMP文件格式,簡單摘錄如下:
      BMP文件包含四個部分:File header、Infomation header、Color table、Data array。
      File header:
          0000H     TYPE           2Bytes       'BM':Windows;others:OS/2
          0002H     File Size      1DWord     File Size
          0006H     Reserve      1DWord     must be 0
          000AH     OffsetBits    1DWord     Offset Bits to Data
      InfoHeader:
          000EH     Header Size  1DWord     '28H':Windows;others:OS/2
          0012H     Width            1DWord     Width by Pixel
          0016H     Height           1DWord     Height by Pixel
          001AH     Planes           1Word       Always be 1
          001CH     Bits/Pix          1Word       1/4/8/16/32/24/32
          001EH     Compression  1DWord     0/1/2/3
          0022H     Data Size       1DWord     by Bytes,must be 4*
          0026H     HResolution   1DWord     aclinic  DPI by pixel/m
          002AH     VResolution   1DWord     vertical DPI by pixel/m
          002EH     Colors            1DWord     0 for all used
          0032H     Impotant       1DWord      0 for all significant 
      Color Table:
          00XXH     Palette           N*4 Byte    R/G/B/0
      Data Array:
          00XXH     Data               xxx             Real Data

      讀入所有頭信息,判斷文件合法性並記錄長、寬、偏移等,暫時只處理單色位圖,逐bit讀入數據並存入數組。
      行分割:每行數據疊加,噪音係數在6(經驗值)以下的判爲空行,在臨界處畫線並紀錄;
      字分割:每文字行的垂直方向像素累加,噪音係數在1以下的判爲間隔,在臨界處畫線並紀錄;
      不足之處:噪音與“一”混淆,似乎不可解決,(其他OCR軟件也有類似錯誤);”判爲'',這個似乎可以後期處理掉;
      下一步工作:繼續判斷8位(256色)圖像,加強魯棒性。

      至此,小鑫的畢設已經基本完成,做個界面就可以交工了,用時5小時~~Good For Me~~


=================================

原文時間:2005.05.23
原文地址:http://mnky.bokee.com/1621207.html

發佈了35 篇原創文章 · 獲贊 0 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章