爲什麼要有中文編碼格式?
最早的ASCII碼只包括了字母、標點符號、特殊字符等127個字符。這些字符對於拉丁語系國家的人使用是足夠的,但是對於非拉丁語系國家(如中國、日本等),ASCII碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字符。
常用的幾種中文編碼格式:
1、Unicode編碼
Unicode編碼通常由兩個字節組成,稱作USC-2,個別偏僻字由四個字節組成,稱作USC-4。前127個還表示原來ASCII碼裏的字符,只不過由一個字節變成了兩個字節。
優點:可以囊括多國語言,囊括了常用漢字
不足:表示一個英文字符由一個字節變成了兩個,浪費存儲空間和傳輸速度。生僻字表示不足
2、UTF-8編碼
Unicode編碼的一種,Unicode用一些基本的保留字符制定了三套編碼方式,它們分別爲UTF-8,UTF-16,UTF-32.在UTF-8中,字符是以8位序列來編碼的,用一個或幾個字節來表示一個字符。這種方式的最大好處是UTF-8保留了ASCII字符的編碼作爲它的一部分。UTF-8俗稱“萬國碼”,可以同屏顯示多語種,一個漢字通常佔用3字節(生僻字佔6個)。爲了做到國際化,網頁儘可能採用UTF-8編碼。
3、GB2312編碼
GB2312簡體中文編碼,一個漢字佔用2個字節,在大陸是主要的編碼方式。當文章/網頁中包含繁體中文、日文、韓文等時,這些內容可能無法被正確編碼。
作用:國家簡體中文字符集,兼容ASCII
位數:使用2個字節表示,能表示7445個符號,包括6763個漢字,幾乎覆蓋所有高頻率漢字。
範圍:高字節從A1-A7,低字節從A1到FE。將高字節和低字節分別加上0xA0即可得到編碼。
4、BIG5編碼
稱爲繁體中文編碼,主要在臺灣地區使用。
5、GBK編碼
作用:它是GB2312的擴展,加入對繁體字的支持,兼容GB2312.
位數:使用2個字節表示,可表示21886個字符。
範圍:高字節從81到FE,低字節從40到FE.
6、GB18030編碼
作用:它解決了中文、日文、朝鮮語等的編碼,兼容GBK。
位數:它採用變字節表示(1ASCII, 2,4字節)。可表示27484個文字。
範圍:1字節從00到7F;2字節高字節從81到FE,低字節從40到7E和80到FE;4字節第一三字節從81到FE,第二四字節從30到39.
參考:
[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262