從wotsit.org查閱了一下BMP文件格式,簡單摘錄如下:
BMP文件包含四個部分:File header、Infomation header、Color table、Data array。
File header:
0000H TYPE 2Bytes 'BM':Windows;others:OS/2
0002H File Size 1DWord File Size
0006H Reserve 1DWord must be 0
000AH OffsetBits 1DWord Offset Bits to Data
InfoHeader:
000EH Header Size 1DWord '28H':Windows;others:OS/2
0012H Width 1DWord Width by Pixel
0016H Height 1DWord Height by Pixel
001AH Planes 1Word Always be 1
001CH Bits/Pix 1Word 1/4/8/16/32/24/32
001EH Compression 1DWord 0/1/2/3
0022H Data Size 1DWord by Bytes,must be 4*
0026H HResolution 1DWord aclinic DPI by pixel/m
002AH VResolution 1DWord vertical DPI by pixel/m
002EH Colors 1DWord 0 for all used
0032H Impotant 1DWord 0 for all significant
Color Table:
00XXH Palette N*4 Byte R/G/B/0
Data Array:
00XXH Data xxx Real Data
讀入所有頭信息,判斷文件合法性並記錄長、寬、偏移等,暫時只處理單色位圖,逐bit讀入數據並存入數組。
行分割:每行數據疊加,噪音係數在6(經驗值)以下的判爲空行,在臨界處畫線並紀錄;
字分割:每文字行的垂直方向像素累加,噪音係數在1以下的判爲間隔,在臨界處畫線並紀錄;
不足之處:噪音與“一”混淆,似乎不可解決,(其他OCR軟件也有類似錯誤);”判爲'',這個似乎可以後期處理掉;
下一步工作:繼續判斷8位(256色)圖像,加強魯棒性。
至此,小鑫的畢設已經基本完成,做個界面就可以交工了,用時5小時~~Good For Me~~
=================================
原文時間:2005.05.23
原文地址:http://mnky.bokee.com/1621207.html