淺解PHP代碼讀取漢字點陣數據

首先,感謝你的閱讀,本人觀點:學習編程是個漫長的過程並不是一時就會很厲害的,關鍵是堅持,快樂地學習,在這裏分享我的一些筆記給你; (本文由廣州達內http://www.phptarena.com爲你分享;)
  簡體中文國標字庫(1981年訂,中國大陸)。7445個字符,其中漢字6773個,包括一級漢字3755個,二級漢字3008個。採用2字節(16位二進制)編碼。

  區位碼:國標GB2312規定,所有的國標漢字與符號組成一個94×94的矩陣。在此方陣中,每一行稱爲一個”區”,每一列稱爲一個”位”,因此,這個方陣實際上組成了一個有94個區(區號分別爲0 1到94)、每個區內有94個位(位號分別爲01到94)的漢字字符集。一個漢字所在的區號和位號簡單地組合在一起就構成了該漢字的”區位碼”。在漢字的區位碼中,高兩位爲區號,低兩位爲位號。由此可見,區位碼與漢字或符號之間是一一對應的。

  內碼:漢字的內碼是指在計算機中表示漢字的編碼。機內碼與區位碼稍有區別。爲什麼不直接用區位碼作爲計算機內的編碼呢? 這是因爲漢字的區碼和位碼的範圍都在1到94內, 如果直接用區位碼作機內碼, 就會與基本ASCII碼衝突。 漢字的內碼通常與所使用的計算機系統有關。目前,對於國內大多數的計算機系統,一個漢字的內碼佔兩個字節,分別稱爲高位字節與低位字節,且這兩位字節與區位碼的關係如下: 內碼高位=區碼+A0H(H表示十六進制) 內碼低位=位碼+A0H 例如,漢字”啊”的區位碼爲”1601″,區碼和位碼分別用十六進制表示即爲”1001H”,則它的內碼爲”B0A1H”。其中B0H爲內碼的高位字節,A1H爲內碼的低位字節。

  PHP代碼:返回由0和1組成的字符串。

  <?php

  /**

  * 讀取漢字點陣數據

  *

  * @author legend

  * @link http://www.ugia.cn/?p=82

  * @Copyright www.ugia.cn

  */

  $str = "中華人民共和國";

  $font_file_name = "simsun12.fon"; // 點陣字庫文件名

  $font_width = 12; // 單字寬度

  $font_height = 12; // 單字高度

  $start_offset = 0; // 偏移

  $fp = fopen($font_file_name, "rb");

  $offset_size = $font_width * $font_height / 8;

  $string_size = $font_width * $font_height;

  $dot_string = "";

  for ($i = 0; $i < strlen($str); $i ++)

  {

  if (ord($str{$i}) >160)

  {

  // 先求區位碼,然後再計算其在區位碼二維表中的位置,進而得出此字符在文件中的偏移

  $offset = ((ord($str{$i}) - 0xa1) * 94 + ord($str{$i + 1}) - 0xa1) * $offset_size;

  $i ++;

  }

  else

  {

  $offset = (ord($str{$i}) + 156 - 1) * $offset_size;

  }

  // 讀取其點陣數據

  fseek($fp, $start_offset + $offset, SEEK_SET);

  $bindot = fread($fp, $offset_size);

  for ($j = 0; $j < $offset_size; $j ++)

  {

  // 將二進制點陣數據轉化爲字符串

  $dot_string .= sprintf("%08b", ord($bindot{$j}));

  }

  }

  fclose($fp);

  echo $dot_string;

  ?>
從基礎的學習到後面應用提高都非常的系統,無論你是本專業的還是跨專業的,都能有所收穫,參加4個月的達內時光轉眼已逝,伴隨着喜悅,達內給你一個新的平臺,一個嶄新的開始。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章