UTF8編碼

UTF-8是Unicode的實現方式之一。

UTF-8的編碼規則很簡單,只有二條:

1)對於單字節的符號,字節的第一位設爲0,後面7位爲這個符號的unicode碼。因此對於英語字母,UTF-8編碼和ASCII碼是相同的。

2)對於n字節的符號(n>1),第一個字節的前n位都設爲1,第n+1位設爲0,後面字節的前兩位一律設爲10。剩下的沒有提及的二進制位,全部爲這個符號的unicode碼。

UTF-8編碼方式                                                        | 對應的十進制Unicode編碼值
0xxxxxxx  |          0 - 127
110xxxxx 10xxxxxx  |      128 - 2047
1110xxxx 10xxxxxx 10xxxxxx  |    2048 - 65535
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx  |  65536 - 1114111

注意:x表示可編碼位

發佈了25 篇原創文章 · 獲贊 4 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章