java編碼

Java編碼問題詳解

分類： Java技術類文章 2006-10-18 15:15 2201人閱讀評論(4) 收藏舉報

1>漢字編碼的相關說明
漢字是雙字節的，要佔用兩個BYTE的位置（即16位），分別稱爲高位和低位。
中國規定的漢字編碼爲GB2312，這是強制性的，目前幾乎所有的能處理中文的應用程序都支持GB2312。GB2312包括了一二級漢字和9區符號，高位從0xa1到0xfe，低位也是從0xa1到0xfe，其中，漢字的編碼範圍爲0xb0a1到0xf7fe。
另外有一種編碼，叫做GBK，但這是一份規範，不是強制的。GBK提供了20902個漢字，它兼容GB2312，編碼範圍爲0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。
中國還頒佈了另一種標準：GB18030-2000（GBK2K）。它收錄了藏、蒙等少數民族的字型，從根本上解決了字位不足的問題。注意：它不再是定長的。其二字節部份與GBK兼容，四字節部分是擴充的字符、字形。它的首字節和第三字節從0x81到0xfe，二字節和第四字節從0x30到0x39。

2>不同語言直接的轉換
異種語言之間的轉換是通過Unicode來完成的。假設有兩種不同的語言A和B，轉換的步驟爲：先把A轉化爲Unicode，再把Unicode轉化爲B。
舉例說明。有GB2312中有一個漢字“李”，其編碼爲“C0EE”，欲轉化爲ISO8859-1編碼。步驟爲：先把“李”字轉化爲Unicode，得到 “674E”，再把“674E”轉化爲ISO8859-1字符。當然，這個映射不會成功，因爲ISO8859-1中根本就沒有與“674E”對應的字符。當映射不成功時，問題就發生了！當從某語言向Unicode轉化時，如果在某語言中沒有該字符，得到的將是Unicode的代碼“/uffffd”（“ /u”表示是Unicode編碼，）。而從Unicode向某語言轉化時，如果某語言沒有對應的字符，則得到的是“0x3f”（“?”）。這就是“?”的由來。例如：把字符流buf =“0x80 0x40 0xb0 0xa1”進行new String(buf, "gb2312")操作，得到的結果是“/ufffd/u554a”，再println出來，得到的結果將是“?啊”，因爲“0x80 0x40”是GBK中的字符，在GB2312中沒有。再如，把字符串String="/u00d6/u00ec/u00e9/u0046/u00bb /u00f9"進行new String (buf.getBytes("GBK"))操作，得到的結果是“3fa8aca8a6463fa8b4”，其中，“/u00d6”在“GBK”中沒有對應的字符，得到“3f”，“/u00ec”對應着“a8ac”，“/u00e9”對應着“a8a6”，“0046”對應着“46”（因爲這是ASCII字符），“/u00bb”沒找到，得到“3f”，最後，“/u00f9”對應着“a8b4”。把這個字符串println一下，得到的結果是 “?ìéF?ù”。看到沒？這裏並不全是問號，因爲GBK與Unicode映射的內容中除了漢字外還有字符，本例就是最好的明證。

3>Unicode格式
Unicode默認爲UTF-16格式。
UTF-8是Unicode壓縮版本，對於大多數常用字符集(ASCII中0~127字符)它只使用單字節，而對其它常用字符(特別是朝鮮和漢語會意文字)，它使用３字節。如果寫的主要是英語，那麼UTF-8可減少文件大小一半左右。
UTF-8就是以8位爲單元對UCS進行編碼，以字節爲編碼單元，沒有字節序的問題。UTF-16以兩個字節爲編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的字節序。例如"奎"的Unicode編碼是594E，"乙"的Unicode編碼是4E59。如果我們收到UTF-16字節流"594E"，那麼這是“奎”還是"乙"？Unicode規範中推薦的標記字節順序的方法是BOM(即Byte Order Mark)。如果接收者收到FEFF，就表明這個字節流是Big-Endian的；如果收到FFFE，就表明這個字節流是Little-Endian的。

3>UTF格式
UTF，是Unicode Text Format的縮寫，意爲Unicode文本格式。對於UTF，是這樣定義的：
● 如果Unicode的16位字符的頭9位是0，則用一個字節表示，這個字節的首位是“0”，剩下的7位與原字符中的後7位相同，如“/u0034” （0000 0000 0011 0100），用“34” (0011 0100)表示；（與源Unicode字符是相同的）；
>7位的Unicode: 0 _ _ _ _ _ _ _
● 如果Unicode的16位字符的頭5位是0，則用2個字節表示，首字節是“110”開頭，後面的5位與源字符中除去頭5個零後的最高5位相同；第二個字節以“10”開頭，後面的6位與源字符中的低6位相同。如“/u025d”（0000 0010 0101 1101），轉化後爲“c99d”（1100 1001 1001 1101）；
>11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
● 如果不符合上述兩個規則，則用三個字節表示。第一個字節以“1110”開頭，後四位爲源字符的高四位；第二個字節以“10”開頭，後六位爲源字符中間的六位；第三個字節以“10”開頭，後六位爲源字符的低六位；如“/u9da7”（1001 1101 1010 0111），轉化爲“e9b6a7”（1110 1001 1011 0110 1010 0111）；
>16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
>21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
可以這麼描述JAVA程序中Unicode與UTF的關係，雖然不絕對：字符串在內存中運行時，表現爲Unicode代碼，而當要保存到文件或其它介質中去時，用的是UTF。這個轉化過程是由writeUTF和readUTF來完成的。

4>Java程序中的編碼格式內幕
input(charsetA)-＞process(Unicode)-＞output(charsetB)
即輸入、處理和輸出要經過“從charsetA到unicode再到charsetB”的轉化。

SourceFile(jsp,java)-＞class-＞output
輸入的是jsp和java源文件，在處理過程中，以Class文件爲載體，然後輸出。

　● JSP從源文件到Class的過程。
在本節中，將闡述JSP文件的解釋和編譯過程，並跟蹤其中的中文變化。
1、 JSP/Servlet引擎提供的JSP轉換工具（jspc）搜索JSP文件中用＜%@ page contentType ="text/html; charset=＜Jsp-charset＞"%＞中指定的charset。如果在JSP文件中未指定＜Jsp-charset＞，則取JVM中的默認設置file.encoding，一般情況下，這個值是ISO8859-1；
2、jspc用相當於“javac –encoding ＜Jsp-charset＞”的命令解釋JSP文件中出現的所有字符，包括中文字符和ASCII字符，然後把這些字符轉換成Unicode字符，再轉化成 UTF格式，存爲JAVA文件。ASCII碼字符轉化爲Unicode字符時只是簡單地在前面加“00”，如“A”，轉化爲“/u0041”（不需要理由，Unicode的碼錶就是這麼編的）。然後，經過到UTF的轉換，又變回“41”了！這也就是可以使用普通文本編輯器查看由JSP生成的JAVA文件的原因；
3、引擎用相當於“javac –encoding UNICODE”的命令，把JAVA文件編譯成CLASS文件；
先看一下這些過程中中文字符的轉換情況。有如下源代碼：
＜%@ page contentType="text/html; charset=gb2312"%＞
＜html＞＜body＞
＜%
String a="中文";
out.println(a);
%＞
＜/body＞＜/html＞
兩個字的GB2312編碼爲“D6 D0 CE C4”。經查表，“中文”兩字的Unicode編碼爲“/u4E2D/u6587”，用 UTF表示就是“E4 B8 AD E6 96 87”。此JSP文件生成的JAVA文件中的“中文”兩個字被“E4 B8 AD E6 96 87”替代了，再查看由JAVA文件編譯生成的CLASS文件，發現結果與JAVA文件中的完全一樣。

再看JSP中指定的CharSet爲ISO-8859-1的情況。
＜%@ page contentType="text/html; charset=ISO-8859-1"%＞
＜html＞＜body＞
＜%
String a="中文";
out.println(a);
%＞
＜/body＞＜/html＞
先推測一下生成的JAVA文件和CLASS文件的過程：jspc用ISO-8859-1來解釋“中文”，並把它映射到Unicode。由於ISO- 8859-1是8位的，其映射規則就是在每個字節前加“00”，所以，映射後的Unicode編碼應爲“/u00D6/u00D0/u00CE /u00C4”，轉化成UTF後應該是“C3 96 C3 90 C3 8E C3 84”。最後，打開文件看一下，JAVA文件和CLASS文件中，“中文”果然都表示爲“C3 96 C3 90 C3 8E C3 84”。
如果上述代碼中不指定＜Jsp-charset＞，即把第一行寫成“＜%@ page contentType="text/html" %＞”，JSPC會使用file.encoding的設置來解釋JSP文件。在RedHat 6.2上，其處理結果與指定爲ISO-8859-1是完全相同的。

到現在爲止，已經解釋了從JSP文件到CLASS文件的轉變過程中中文字符的映射過程。一句話：從“JspCharSet到Unicode再到UTF”。

● Servlet從源文件到Class的過程
本節將討論Servlet的編譯過程並跟蹤其中的中文變化。
用“javac”編譯Servlet源文件。javac可以帶“-encoding ＜Compile-charset＞”參數，意思是“用＜ Compile-charset ＞中指定的編碼來解釋Serlvet源文件”。
源文件在編譯時，用＜Compile-charset＞來解釋所有字符，包括中文字符和ASCII字符。然後把字符常量轉變成Unicode字符，最後，把Unicode轉變成UTF。
在Servlet中，還有一個地方設置輸出流的CharSet。通常在輸出結果前，調用HttpServletResponse的 setContentType方法來達到與在JSP中設置＜Jsp-charset＞一樣的效果，稱之爲＜Servlet-charset＞。
注意，文中一共提到了三個變量：＜Jsp-charset＞、＜Compile-charset＞和＜Servlet-charset＞。其中，JSP文件只與＜Jsp-charset＞有關，而＜Compile-charset＞和＜Servlet-charset＞只與Servlet有關。

import javax.servlet.*;
import javax.servlet.http.*;
class testServlet extends HttpServlet
{
public void doGet(HttpServletRequest req,HttpServletResponse res)
throws ServletException,java.io.IOException
{
res.setContentType("text/html; charset=GB2312");
java.io.PrintWriter out=res.getWriter();
out.println("＜html＞");
out.println("#中文#");
out.println("＜/html＞");
}
}

開始編譯。下表是＜Compile-charset＞不同時，CLASS文件中“中文”兩字的十六進制碼。在編譯過程中，＜Servlet- charset＞不起任何作用。＜Servlet-charset＞只對CLASS文件的輸出產生影響，實際上是＜Servlet-charset＞和＜Compile-charset＞一起，達到與JSP文件中的＜Jsp-charset＞相同的效果，因爲＜Jsp-charset＞對編譯和 CLASS文件的輸出都會產生影響。“中文”兩個字的GB2312編碼爲“D6 D0 CE C4”

Compile-charset   Class文件中                      等效的Unicode碼
GB2312            E4 B8 AD E6 96 87(UTF)          /u4E2D/u6587 (在Unicode中＝“中文”)
ISO-8859-1        C3 96 C3 90 C3 8E C3 84 (UTF)   /u00D6 /u00D0 /u00CE /u00C4 (在D6 D0 CE C4前面各加了一個00)
（默認）           同ISO-8859-1                     同ISO-8859-1

普通Java程序的編譯過程與Servlet完全一樣。
接下來看看CLASS又是怎樣輸出中文的呢？
上文說過，字符串在內存中表現爲Unicode編碼。至於這種Unicode編碼表示了什麼，那要看它是從哪種字符集映射過來的，也就是說要看它的祖先。看看上面的例子，如果給一串Unicode編碼“00D6 00D0 00CE 00C4”，如果不作轉換，直接用Unicode碼錶來對照它時，是四個字符（而且是特殊字符）；假如把它與“ISO8859-1”進行映射，則直接去掉前面的“00”即可得到“D6 D0 CE C4”，這是ASCII碼錶中的四個字符；而假如把它當作GB2312來進行映射，得到的結果很可能是一大堆亂碼，因爲在GB2312中有可能沒有（也有可能有）字符與00D6等字符對應（如果對應不上，將得到0x3f，也就是問號，如果對應上了，由於00D6等字符太靠前，估計也是一些特殊符號，真正的漢字在Unicode中的編碼從4E00開始）。
可以，同樣的Unicode字符，可以解釋成不同的樣子。當然，這其中有一種是我們期望的結果。
以上例而論，“D6 D0 CE C4”應該是我們所想要的，當把“D6 D0 CE C4”輸出到IE中時，用“簡體中文”方式查看，就能看到清楚的“中文”兩個字了。
Servlet中，當Compile-charset=Servlet-charset時，顯示結果肯定正常。

● 最終結論：
在Class輸出字符串前，會將Unicode的字符串按照某一種內碼重新生成字節流，然後把字節流輸入，相當於進行了一步“String.getBytes(???)”操作。???代表某一種字符集。
如果是Servlet，那麼，這種內碼就是在HttpServletResponse.setContentType()方法中指定的內碼，也就是上文定義的＜Servlet-charset＞。
如果是JSP，那麼，這種內碼就是在＜%@ page contentType=""%＞中指定的內碼，也就是上文定義的＜Jsp-charset＞。
如果是Java程序，那麼，這種內碼就是file.encoding中指定的內碼，默認爲ISO8859-1。

5>結論

在Jsp文件中，要指定contentType，其中，charset的值要與客戶端瀏覽器所用的字符集一樣；對於其中的字符串常量，不需做任何內碼轉換；對於字符串變量，要求能根據ContentType中指定的字符集還原成客戶端能識別的字節流，簡單地說，就是“字符串變量是基於＜Jsp- charset＞字符集的”；

在Servlet中，必須用HttpServletResponse.setContentType()設置charset，且設置成與客戶端內碼一致；對於其中的字符串常量，需要在Javac編譯時指定encoding，這個encoding必須與編寫源文件的平臺的字符集一樣，一般說來都是 GB2312或GBK；對於字符串變量，與JSP一樣，必須“是基於＜Servlet-charset＞字符集的”。

Java編碼問題詳解

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

數據庫連接池的配置

java編碼

java內存管理

我的友情鏈接

sql優化

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結