【轉】關於unicode和utf-8區別的一個比較好的例子

在查相關資料時，看到知乎一個比較優秀的回答。轉載以便查閱
轉載自
作者：uuspider
鏈接：https://www.zhihu.com/question/23374078/answer/65352538
來源：知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

舉一個例子：It’s 知乎日報你看到的unicode字符集是這樣的編碼表：

I 0049
t 0074
' 0027
s 0073
  0020
知 77e5
乎 4e4e
日 65e5
報 62a5

每一個字符對應一個十六進制數字。計算機只懂二進制，因此，嚴格按照unicode的方式(UCS-2)，應該這樣存儲：

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
  00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
報 01100010 10100101

這個字符串總共佔用了18個字節，但是對比中英文的二進制碼，可以發現，英文前9位都是0！浪費啊，浪費硬盤，浪費流量。
怎麼辦？
UTF。
UTF-8是這樣做的：

單字節的字符，字節的第一位設爲0，對於英語文本，UTF-8碼只佔用一個字節，和ASCII碼完全相同；
n個字節的字符(n>1)，第一個字節的前n位設爲1，第n+1位設爲0，後面字節的前兩位都設爲10，這n個字節的其餘空位填充該字符unicode碼，高位用0補足。

這樣就形成了如下的UTF-8標記位：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

於是，”It’s 知乎日報“就變成了：

I 01001001
t 01110100
' 00100111
s 01110011
  00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
報 11100110 10001010 10100101

和上邊的方案對比一下，英文短了，每個中文字符卻多用了一個字節。但是整個字符串只用了17個字節，比上邊的18個短了一點點。

另外附廖雪峯關於unicode和utf-8用法總結：
https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【轉】關於unicode和utf-8區別的一個比較好的例子

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

C++模板：什麼是特化？學習筆記

shell文件比較運算符

python幾種編碼轉換

總結學習頭文件和源文件的關係以及存放

unp daytimetcpcli.c 編譯時遇到的一個問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結