String與byte[]字節數組中文轉換亂碼問題

原文地址:http://www.cnblogs.com/hy928302776/archive/2013/04/20/3032728.htm

https://blog.csdn.net/vipclx/article/details/8029410

在Java中,String.getBytes(String decode)方法會根據指定的decode編碼返回某字符串在該編碼下的byte數組表示,

byte[] b_gbk = "中".getBytes("GBK");

byte[] b_utf8 = "中".getBytes("UTF-8"); 

byte[] b_iso88591 = "中".getBytes("ISO8859-1");

byte[] b_unicode = "中".getBytes("unicode");

將分別返回“中”這個漢字在GBK、UTF-8和ISO8859-1編碼下的byte數組表示,此時b_gbk的長度爲2,b_utf8的長度爲3,b_iso88591的長度爲1,b_unicode 的長度爲4(系統的的unicode採用的是big-endian就是前面是兩個字節來表示這個的,unicode採用的都是兩個字節編碼,所以後面是4個字節 )。

而與getBytes相對的,可以通過new String(byte[], decode)的方式來還原這個“中”字時,這個new String(byte[], decode)實際是使用decode指定的編碼來將byte[]解析成字符串。

String s_gbk = new String(b_gbk,"GBK");

String s_utf8 = new String(b_utf8,"UTF-8"); 

String s_iso88591 = new String(b_iso88591,"ISO8859-1");

 通過打印s_gbk、s_utf8和s_iso88591,會發現,s_gbk和s_utf8都是“中”,而只有s_iso88591是一個不認識的字符,爲什麼使用ISO8859-1編碼再組合之後,無法還原“中”字呢,其實原因很簡單,因爲ISO8859-1編碼的編碼表中,根本就沒有包含漢字字符,當然也就無法通過"中".getBytes("ISO8859-1");來得到正確的“中”字在ISO8859-1中的編碼值了,所以再通過new String()來還原就無從談起了。

因此,通過String.getBytes(String decode)方法來得到byte[]時,一定要確定decode的編碼表中確實存在String表示的碼值,這樣得到的byte[]數組才能正確被還原。

有時候,爲了讓中文字符適應某些特殊要求(如http header頭要求其內容必須爲iso8859-1 編碼),可能會通過將中文字符按照字節方式來編碼的情況,如  String s_iso88591 = new String("中".getBytes("UTF-8"),"ISO8859-1"),這樣得到的s_iso8859-1字符串實際是三個在ISO8859-1中的字符,在將這些字符傳遞到目的地後,目的地程序再通過相反的方式String s_utf8 = new  String(s_iso88591.getBytes("ISO8859-1"),"UTF-8")來得到正確的中文漢字“中”。這樣就既保證了遵守協議規定、也支持中文。

String的getBytes()方法是得到一個字串的字節數組,這是衆所周知的。但特別要注意的是,本方法將返回該操作系統默認的編碼格式的字節數組。如果你在使用這個方法時不考慮到這一點,你會發現在一個平臺上運行.    良好的系統,放到另外一臺機器後會產生意想不到的問題。




java中utf-8編碼的byte數組轉換成String類型代碼


private String utfToString(byte[] data) {

    String str = null;

    try {
           str = new String(data, "utf-8");
    } catch (UnsupportedEncodingException e) {
    }   

    return str;

 }

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章