中文編碼 1:常見中文編碼格式

爲什麼要有中文編碼格式?

        最早的ASCII碼只包括了字母、標點符號、特殊字符等127個字符。這些字符對於拉丁語系國家的人使用是足夠的,但是對於非拉丁語系國家(如中國、日本等),ASCII碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字符。

常用的幾種中文編碼格式:

1、Unicode編碼

           Unicode編碼通常由兩個字節組成,稱作USC-2,個別偏僻字由四個字節組成,稱作USC-4。前127個還表示原來ASCII碼裏的字符,只不過由一個字節變成了兩個字節。

優點:可以囊括多國語言,囊括了常用漢字

不足:表示一個英文字符由一個字節變成了兩個,浪費存儲空間和傳輸速度。生僻字表示不足

2、UTF-8編碼

            Unicode編碼的一種,Unicode用一些基本的保留字符制定了三套編碼方式,它們分別爲UTF-8,UTF-16,UTF-32.在UTF-8中,字符是以8位序列來編碼的,用一個或幾個字節來表示一個字符。這種方式的最大好處是UTF-8保留了ASCII字符的編碼作爲它的一部分。UTF-8俗稱“萬國碼”,可以同屏顯示多語種,一個漢字通常佔用3字節(生僻字佔6個)。爲了做到國際化,網頁儘可能採用UTF-8編碼。

3、GB2312編碼

GB2312簡體中文編碼,一個漢字佔用2個字節,在大陸是主要的編碼方式。當文章/網頁中包含繁體中文、日文、韓文等時,這些內容可能無法被正確編碼。

作用:國家簡體中文字符集,兼容ASCII

位數:使用2個字節表示,能表示7445個符號,包括6763個漢字,幾乎覆蓋所有高頻率漢字。

範圍:高字節從A1-A7,低字節從A1到FE。將高字節和低字節分別加上0xA0即可得到編碼。

4、BIG5編碼

稱爲繁體中文編碼,主要在臺灣地區使用。

5、GBK編碼

作用:它是GB2312的擴展,加入對繁體字的支持,兼容GB2312.

位數:使用2個字節表示,可表示21886個字符。

範圍:高字節從81到FE,低字節從40到FE.

6、GB18030編碼

作用:它解決了中文、日文、朝鮮語等的編碼,兼容GBK。

位數:它採用變字節表示(1ASCII, 2,4字節)。可表示27484個文字。

範圍:1字節從00到7F;2字節高字節從81到FE,低字節從40到7E和80到FE;4字節第一三字節從81到FE,第二四字節從30到39.

 

 

參考:

[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262

[2] https://www.jb51.net/article/92006.htm

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章