unicode、GBK、UTF-8

原創

songzheng_741

2020-02-26 05:29

unicode是一種“編碼”，所謂編碼就是一個編號(數字)到字符的一種映射關係，就僅僅是一種一對一的映射而已，可以理解成一個很大的對應表格
GBK、UTF-8是一種“編碼格式”，是用來序列化或存儲1中提到的那個“編號(數字)”的一種“格式”；GBK和UTF-8都是用來序列化或存儲unicode編碼的數據的，但是分別是2種不同的格式；他們倆除了格式不一樣之外，他們所關心的unicode編碼範圍也不一樣，utf-8考慮了很多種不同國家的字符，涵蓋整個unicode碼錶，所以其存儲一個字符的編碼的時候，使用的字節長度也從1字節到4字節不等；而GBK只考慮中文——在unicode中的一小部分——的字符，的編碼，所以它算好了只要2個字節就能涵蓋到絕大多數常用中文(2個字節能表示6w多種字符),所以它存儲一個字符的時候，所用的字節長度是固定的；
上述2個概念不懂的請馬上google，下面不再贅述；我下面說說這個問題本身...的問題在哪裏
首先java的string使用的編碼是unicode，但是，當string存在於內存中時(也就是當程序運行時、你在代碼中用string類型的引用對它進行操作時、也就是string沒有被存在文件中且也沒有在網絡中傳輸(序列化)時)，是“只有編碼而沒有編碼格式的”，所以java程序中的任何String對象，說它是gbk還是utf-8都是錯的，gbk和utf-8是編碼格式而不是編碼，String在內存中不需要“編碼格式”(記住編碼格式是在存文件或序列化的時候使用的), 它只是一個unicode的字符串而已
所以java裏面String是不帶編碼格式的，而String.toByteArray(charsetName)得到的byteArray是帶編碼格式的，格式就是你傳入的'charsetName',我們不妨把toByteArray的這個過程叫做“編碼”;另外，new String(byte[], charsetName)是把一個byte數組(帶編碼格式)以charsetName指定的編碼格式翻譯爲一個不帶編碼格式的String對象，我們不妨把這個過程叫“解碼”

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

unicode、GBK、UTF-8

jquery easyui tree實現延遲

JQuery_2.1.0_日記 5.1

unicode、GBK、UTF-8

JQuery日記 2014-4.28

JQuery日記 5.11 Sizzle選擇器(五)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結