字符編碼史：請問utf-8的中文是一個漢字佔三個字節長度嗎？

原創

2020-02-23 00:00

這是個好問題，可以當作一個筆試題。先從字符編碼講起。 1、美國人首先對其英文字符進行了編碼，也就是最早的ascii碼，用一個字節的低7位來表示英文的128個字符，高1位統一爲0； 2、後來歐洲人發現尼瑪你這128位哪夠用，比如我高貴的法國人字母上面的還有注音符，這個怎麼區分，得，把高1位編進來吧，這樣歐洲普遍使用一個全字節進行編碼，最多可表示256位。歐美人就是喜歡直來直去，字符少，編碼用得位數少； 3、但是即使位數少，不同國家地區用不同的字符編碼，雖然0--127表示的符號是一樣的，但是128--255這一段的解釋完全亂套了，即使2進制完全一樣，表示的字符完全不一樣，比如135在法語，希伯來語，俄語編碼中完全是不同的符號； 4、更麻煩的是，尼瑪這電腦高科技傳到中國後，中國人發現我們有10萬多個漢字，你們歐美這256字塞牙縫都不夠。於是就發明了GB2312這些漢字編碼，典型的用2個字節來表示絕大部分的常用漢字，最多可以表示65536個漢字字符，這樣就不難理解有些漢字你在新華字典裏查得到，但是電腦上如果不處理一下你是顯示不出來的了吧。 5、這下各用各的字符集編碼，這世界咋統一？俄國人發封email給中國人，兩邊字符集編碼不同，尼瑪顯示都是亂碼啊。爲了統一，於是就發明了unicode，將世界上所有的符號都納入其中，每一個符號都給予一個獨一無二的編碼，現在unicode可以容納100多萬個符號，每個符號的編碼都不一樣，這下可統一了，所有語言都可以互通，一個網頁頁面裏可以同時顯示各國文字。 6、然而，unicode雖然統一了全世界字符的二進制編碼，但沒有規定如何存儲啊，親。x86和amd體系結構的電腦小端序和大端序都分不清，別提計算機如何識別到底是unicode還是acsii了。如果Unicode統一規定，每個符號用三個或四個字節表示，那麼每個英文字母前都必然有二到三個字節是0，文本文件的大小會因此大出二三倍，這對於存儲來說是極大的浪費。這樣導致一個後果：出現了Unicode的多種存儲方式。 7、互聯網的興起，網頁上要顯示各種字符，必須統一啊，親。utf-8就是Unicode最重要的實現方式之一。另外還有utf-16、utf-32等。UTF-8不是固定字長編碼的，而是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。這是種比較巧妙的設計，如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符佔用多少個字節。 8、注意unicode的字符編碼和utf-8的存儲編碼表示是不同的，例如"嚴"字的Unicode碼是4E25，UTF-8編碼是E4B8A5，這個7裏面解釋了的，UTF-8編碼不僅考慮了編碼，還考慮了存儲，E4B8A5是在存儲識別編碼的基礎上塞進了4E25。 9、UTF-8 使用一至四個字節爲每個字符編碼。128 個 ASCII 字符（Unicode 範圍由 U+0000 至 U+007F）只需一個字節，帶有變音符號的拉丁文、希臘文、西裏爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及馬爾代夫語（Unicode 範圍由 U+0080 至 U+07FF）需要二個字節，其他基本多文種平面（BMP）中的字符（CJK屬於此類-Qieqie注）使用三個字節，其他 Unicode 輔助平面的字符使用四字節編碼。  10、最後，要回答你的問題，常規來看，中文漢字在utf-8中到底佔幾個字節，一般是3個字節，最常見的編碼方式是1110xxxx 10xxxxxx 10xxxxxx。

原文查看：點擊打開鏈接

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字符編碼史：請問utf-8的中文是一個漢字佔三個字節長度嗎？

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

深入理解Java虛擬機系列——JVM的GC理論詳解

maven setting詳解

深入瞭解Java虛擬機系列——JVM的啓動流程

深入理解Java虛擬機系列（1）——什麼叫做JVM與JVM規範

MapperReduce初探系列（1）——面向編程之分佈式分析框架（模型）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結