緒論
看博客看到一件比較好玩的事情,以前從來不知道編碼是這樣轉換的。
正文
規則
Unicode | UTF-8 |
---|---|
0000 - 007F | 0xxxxxxx |
0080 - 07FF | 110xxxxx 10xxxxxx |
0800 - FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
說明
列如“漢”字的Unicode編碼是6C49。
6C49在0800 - FFFF之間,所以要用三字節模板:1110xxxx 10xxxxxx 10xxxxxx。
將6C49寫成二進制是:0110 1100 0100 1001,將這個比特流按三字節模板的分段方法分爲:0110 110001 001001。
依次代替模板中的x,得到:1110-0110 10-110001 10-001001,即E6 B1 89,這就是其UTF-8編碼。
是不是有點意思哈。
(若有什麼錯誤,請留言指正,3Q)