先說一個簡單的轉換流的應用場景,然後後面再對當中的某些概念以及核心的InputStreamReader、OutputStreamWriter兩個類做介紹
應用場景:轉換文件編碼
將GBK編碼的文本文件,轉換爲UTF-8編碼的文本文件。
分析
- 指定GBK編碼的轉換流,讀取文本文件。
- 使用UTF-8編碼的轉換流,寫出文本文件。
實現
public static void main(String[] args) throws IOException {
GbkToUTF8("C:\\Users\\87828\\Desktop\\gbk.txt");
}
private static void GbkToUTF8(String target) {
char[] arr = null;
try(
FileInputStream fi = new FileInputStream(target);
InputStreamReader isr = new InputStreamReader(fi, "gbk");
){
arr = new char[fi.available()];
//讀取到arr中
isr.read(arr);
for (char c : arr) {
System.out.print(c);
}
}catch (IOException e){
e.printStackTrace();
}
//寫入
if(arr != null){
try(OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(target),"utf-8");){
osw.write(arr);
}catch (IOException e){
e.printStackTrace();
}
}
}
1. 字符編碼和字符集
字符編碼
計算機中儲存的信息都是用二進制數表示的,而我們在屏幕上看到的數字、英文、標點符號、漢字等字符是二進制數轉換之後的結果。按照某種規則,將字符存儲到計算機中,稱爲編碼 。反之,將存儲在計算機中的二進制數按照某種規則解析顯示出來,稱爲解碼 。
編碼:字符–>字節
解碼:字節–>字符
-
字符編碼
Character Encoding
: 就是一套自然語言的字符與二進制數之間的對應規則。編碼表:生活中文字和計算機中二進制的對應規則
字符集
- 字符集
Charset
:也叫編碼表。是一個系統支持的所有字符的集合,包括各國家文字、標點符號、圖形符號、數字等。
計算機要準確的存儲和識別各種字符集符號,需要進行字符編碼,一套字符集必然至少有一套字符編碼。常見字符集有ASCII字符集、GBK字符集、Unicode字符集等
可見,當指定了編碼,它所對應的字符集自然就指定了,所以編碼纔是我們最終要關心的。
- ASCII字符集 :
- ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基於拉丁字母的一套電腦編碼系統,用於顯示現代英語,主要包括控制字符(回車鍵、退格、換行鍵等)和可顯示字符(英文大小寫字符、阿拉伯數字和西文符號)。
- 基本的ASCII字符集,使用7位(bits)表示一個字符,共128字符。ASCII的擴展字符集使用8位(bits)表示一個字符,共256字符,方便支持歐洲常用字符。
- ISO-8859-1字符集:
- 拉丁碼錶,別名Latin-1,用於顯示歐洲使用的語言,包括荷蘭、丹麥、德語、意大利語、西班牙語等。
- ISO-8859-1使用單字節編碼,兼容ASCII編碼。
- GBxxx字符集:
- GB就是國標的意思,是爲了顯示中文而設計的一套字符集。
- GB2312:簡體中文碼錶。一個小於127的字符的意義與原來相同。但兩個大於127的字符連在一起時,就表示一個漢字,這樣大約可以組合了包含7000多個簡體漢字,此外數學符號、羅馬希臘的字母、日文的假名們都編進去了,連在ASCII裏本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼,這就是常說的"全角"字符,而原來在127號以下的那些就叫"半角"字符了。
- GBK:最常用的中文碼錶。是在GB2312標準基礎上的擴展規範,使用了雙字節編碼方案,共收錄了21003個漢字,完全兼容GB2312標準,同時支持繁體漢字以及日韓漢字等。
- GB18030:最新的中文碼錶。收錄漢字70244個,採用多字節編碼,每個字可以由1個、2個或4個字節組成。支持中國國內少數民族的文字,同時支持繁體漢字以及日韓漢字等。
- Unicode字符集 :
- Unicode編碼系統爲表達任意語言的任意字符而設計,是業界的一種標準,也稱爲統一碼、標準萬國碼。
- 它最多使用4個字節的數字來表達每個字母、符號,或者文字。有三種編碼方案,UTF-8、UTF-16和UTF-32。最爲常用的UTF-8編碼。
- UTF-8編碼,可以用來表示Unicode標準中任何字符,它是電子郵件、網頁及其他存儲或傳送文字的應用中,優先採用的編碼。互聯網工程工作小組(IETF)要求所有互聯網協議都必須支持UTF-8編碼。所以,我們開發Web應用,也要使用UTF-8編碼。它使用一至四個字節爲每個字符編碼,編碼規則:
- 128個US-ASCII字符,只需一個字節編碼。
- 拉丁文等字符,需要二個字節編碼。
- 大部分常用字(含中文),使用三個字節編碼。
- 其他極少使用的Unicode輔助字符,使用四字節編碼。
2. 亂碼問題
在IDEA中,使用FileReader
讀取項目中的文本文件。由於IDEA的設置,都是默認的UTF-8
編碼,所以沒有任何問題。但是,當讀取Windows系統中創建的文本文件時,由於Windows系統的默認是GBK編碼,就會出現亂碼。
public class ReaderDemo {
public static void main(String[] args) throws IOException {
FileReader fileReader = new FileReader("E:\\File_GBK.txt");
int read;
while ((read = fileReader.read()) != -1) {
System.out.print((char)read);
}
fileReader.close();
}
}
輸出結果:
���
那麼如何讀取GBK編碼的文件呢?
3. InputStreamReader類
轉換流java.io.InputStreamReader
,是Reader的子類,是從字節流到字符流的橋樑。它讀取字節,並使用指定的字符集將其解碼爲字符。它的字符集可以由名稱指定,也可以接受平臺的默認字符集。
構造方法
InputStreamReader(InputStream in)
: 創建一個使用默認字符集的字符流。InputStreamReader(InputStream in, String charsetName)
: 創建一個指定字符集的字符流。
構造舉例,代碼如下:
InputStreamReader isr = new InputStreamReader(new FileInputStream("in.txt"));
InputStreamReader isr2 = new InputStreamReader(new FileInputStream("in.txt") , "GBK");
指定編碼讀取
public class ReaderDemo2 {
public static void main(String[] args) throws IOException {
// 定義文件路徑,文件爲gbk編碼
String FileName = "E:\\file_gbk.txt";
// 創建流對象,默認UTF8編碼
InputStreamReader isr = new InputStreamReader(new FileInputStream(FileName));
// 創建流對象,指定GBK編碼
InputStreamReader isr2 = new InputStreamReader(new FileInputStream(FileName) , "GBK");
// 定義變量,保存字符
int read;
// 使用默認編碼字符流讀取,亂碼
while ((read = isr.read()) != -1) {
System.out.print((char)read); // ��Һ�
}
isr.close();
// 使用指定編碼字符流讀取,正常解析
while ((read = isr2.read()) != -1) {
System.out.print((char)read);// 大家好
}
isr2.close();
}
}
4. OutputStreamWriter類
轉換流java.io.OutputStreamWriter
,是Writer的子類,是從字符流到字節流的橋樑。使用指定的字符集將字符編碼爲字節。它的字符集可以由名稱指定,也可以接受平臺的默認字符集。
構造方法
OutputStreamWriter(OutputStream in)
: 創建一個使用默認字符集的字符流。OutputStreamWriter(OutputStream in, String charsetName)
: 創建一個指定字符集的字符流。
構造舉例,代碼如下:
OutputStreamWriter isr = new OutputStreamWriter(new FileOutputStream("out.txt"));
OutputStreamWriter isr2 = new OutputStreamWriter(new FileOutputStream("out.txt") , "GBK");
指定編碼寫出
public class OutputDemo {
public static void main(String[] args) throws IOException {
// 定義文件路徑
String FileName = "E:\\out.txt";
// 創建流對象,默認UTF8編碼
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(FileName));
// 寫出數據
osw.write("你好"); // 保存爲6個字節
osw.close();
// 定義文件路徑
String FileName2 = "E:\\out2.txt";
// 創建流對象,指定GBK編碼
OutputStreamWriter osw2 = new OutputStreamWriter(new FileOutputStream(FileName2),"GBK");
// 寫出數據
osw2.write("你好");// 保存爲4個字節
osw2.close();
}
}