計算機編碼：

原創

2020-06-29 17:57

上一篇有很多囉嗦，這篇做一些補充：

所有語言的字符都用同一種字符集來表示，這就是Unicode。

最初的Unicode標準UCS-2使用兩個字節表示一個字符，所以你常常可以聽到Unicode使用兩個字節表示一個字符的說法。但過了不久有人覺得256*256太少了，還是不夠用，於是出現了UCS-4標準，它使用4個字節表示一個字符，不過我們用的最多的仍然是UCS-2。

UCS(Unicode Character Set)還僅僅是字符對應碼位的一張表而已，比如”漢”這個字的碼位是6C49。字符具體如何傳輸和儲存則是由UTF(UCS Transformation Format)來負責。

一開始這事很簡單，直接使用UCS的碼位來保存，這就是UTF-16，比如，”漢”直接使用\x6C\x49保存(UTF-16-BE)，或是倒過來使用\x49\x6C保存(UTF-16-LE)。但用着用着美國人覺得自己吃了大虧，以前英文字母只需要一個字節就能保存了，現在大鍋飯一喫變成了兩個字節，空間消耗大了一倍……於是UTF-8橫空出世。

UTF-8是一種很彆扭的編碼，具體表現在他是變長的，並且兼容ASCII，ASCII字符使用1字節表示。然而這裏省了的必定是從別的地方摳出來的，你肯定也聽說過UTF-8裏中文字符使用3個字節來保存吧？4個字節保存的字符更是在淚奔……（具體UCS-2是怎麼變成UTF-8的請自行搜索）

新的問題又出現了：如果統一成Unicode編碼，亂碼問題從此消失了。但是，如果你寫的文本基本上全部是英文的話，用Unicode編碼比ASCII編碼需要多一倍的存儲空間，在存儲和傳輸上就十分不划算。所以，本着節約的精神，又出現了把Unicode編碼轉化爲“可變長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字符根
據不同的數字大小編碼成1-6個字節，常用的英文字母被編碼成1個字節，漢字通常是3個字節，只有很生僻的字符纔會被編碼成4-6個字節。如果你要傳輸的文本包含大量英文字符，用UTF-8編碼就能節省空間。

總結一下現在計算機系統通用的字符編碼工作方式：
在計算機內存中，統一使用Unicode編碼，當需要保存到硬盤或者需要傳輸的時候，就轉換爲UTF-8編碼。
記事本編輯的時候，從文件讀取的UTF-8字符被轉換爲Unicode字符到內存裏，編輯完成後，保存的時候再把Unicode轉換爲UTF-8保存到文件：

瀏覽網頁的時候，服務器會把動態生成的Unicode內容轉換爲UTF-8再傳輸到瀏覽器：

所以你看到很多網頁的源碼上會有類似的信息，表示該網頁正是用的UTF-8編碼。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

計算機編碼：

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

字典實例：利用字典將兩個通訊錄文本合併爲一個文本

反碼補碼原碼

計算機編碼：

布爾表達式

遞歸函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結