漢字的統一與存儲編碼

不同的字形,相同的編碼

今天碰巧看了下unicode編碼問題,計算機的世界真是太神奇了。

因爲中日韓等多個地區都有自己漢字的寫法,統計起來漢字個數就非常多了,如果文字採用16位全球文字編碼(UCS-2標準),六萬多個位置估計放漢字都不夠。所以把一些同字異形的漢字統一成相同的編碼,從而節省空間,這是十分有必要的。
其中漢字編碼有個重要的國際標準ISO10646

原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。

也就是說同一個漢字在不同地區會被解析成不同的字形,簡單理解是漢字寫法的差異。

下圖是win10+IE11的截圖,原表格在維基百科上,不同瀏覽器會導致不同結果(所以怎樣才能顯示正常呢?)

中日韓漢字異形

參考文二比較詳細的編碼知識介紹

參考

[1] 維基百科:中日韓統一表意文字
[2] 字符集,編碼的含義,UNICODE與UCS(ISO-10646)的區別

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章