中文編碼 1：常見中文編碼格式

原創

矮油1

2020-06-16 03:04

爲什麼要有中文編碼格式？

最早的ASCII碼只包括了字母、標點符號、特殊字符等127個字符。這些字符對於拉丁語系國家的人使用是足夠的，但是對於非拉丁語系國家（如中國、日本等），ASCII碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字符。

常用的幾種中文編碼格式：

1、Unicode編碼

Unicode編碼通常由兩個字節組成，稱作USC-2，個別偏僻字由四個字節組成，稱作USC-4。前127個還表示原來ASCII碼裏的字符，只不過由一個字節變成了兩個字節。

優點：可以囊括多國語言，囊括了常用漢字

不足：表示一個英文字符由一個字節變成了兩個，浪費存儲空間和傳輸速度。生僻字表示不足

2、UTF-8編碼

Unicode編碼的一種，Unicode用一些基本的保留字符制定了三套編碼方式，它們分別爲UTF-8，UTF-16，UTF-32.在UTF-8中，字符是以8位序列來編碼的，用一個或幾個字節來表示一個字符。這種方式的最大好處是UTF-8保留了ASCII字符的編碼作爲它的一部分。UTF-8俗稱“萬國碼”，可以同屏顯示多語種，一個漢字通常佔用3字節（生僻字佔6個）。爲了做到國際化，網頁儘可能採用UTF-8編碼。

3、GB2312編碼

GB2312簡體中文編碼，一個漢字佔用2個字節，在大陸是主要的編碼方式。當文章/網頁中包含繁體中文、日文、韓文等時，這些內容可能無法被正確編碼。

作用：國家簡體中文字符集，兼容ASCII

位數：使用2個字節表示，能表示7445個符號，包括6763個漢字，幾乎覆蓋所有高頻率漢字。

範圍：高字節從A1-A7，低字節從A1到FE。將高字節和低字節分別加上0xA0即可得到編碼。

4、BIG5編碼

稱爲繁體中文編碼，主要在臺灣地區使用。

5、GBK編碼

作用：它是GB2312的擴展，加入對繁體字的支持，兼容GB2312.

位數：使用2個字節表示，可表示21886個字符。

範圍：高字節從81到FE，低字節從40到FE.

6、GB18030編碼

作用：它解決了中文、日文、朝鮮語等的編碼，兼容GBK。

位數：它採用變字節表示（1ASCII, 2,4字節）。可表示27484個文字。

範圍：1字節從00到7F；2字節高字節從81到FE，低字節從40到7E和80到FE；4字節第一三字節從81到FE，第二四字節從30到39.

參考：

[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262

[2] https://www.jb51.net/article/92006.htm

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

中文編碼 1：常見中文編碼格式

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

中文編碼 1：常見中文編碼格式

正則表達式常用用法

入行 AI，如何選個腳踏實地的崗位？

正則表達式（一） search

Python錯誤：unindent does not match any outer indentation level

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結