JAVA 轉換流 InputStreamReader-OutputStreamWriter

先說一個簡單的轉換流的應用場景,然後後面再對當中的某些概念以及核心的InputStreamReader、OutputStreamWriter兩個類做介紹

應用場景:轉換文件編碼

將GBK編碼的文本文件,轉換爲UTF-8編碼的文本文件。

分析

  1. 指定GBK編碼的轉換流,讀取文本文件。
  2. 使用UTF-8編碼的轉換流,寫出文本文件。

實現

public static void main(String[] args) throws IOException {
    GbkToUTF8("C:\\Users\\87828\\Desktop\\gbk.txt");
}


private static void GbkToUTF8(String target) {
    char[] arr = null;
    try(
            FileInputStream fi = new FileInputStream(target);
            InputStreamReader isr = new InputStreamReader(fi, "gbk");

            ){
        arr = new char[fi.available()];
        //讀取到arr中
        isr.read(arr);
        for (char c : arr) {
            System.out.print(c);
        }

    }catch (IOException e){
        e.printStackTrace();
    }

    //寫入
    if(arr != null){
        try(OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(target),"utf-8");){
            osw.write(arr);
        }catch (IOException e){
            e.printStackTrace();
        }
    }
}

1. 字符編碼和字符集

字符編碼

計算機中儲存的信息都是用二進制數表示的,而我們在屏幕上看到的數字、英文、標點符號、漢字等字符是二進制數轉換之後的結果。按照某種規則,將字符存儲到計算機中,稱爲編碼 。反之,將存儲在計算機中的二進制數按照某種規則解析顯示出來,稱爲解碼

編碼:字符–>字節

解碼:字節–>字符

  • 字符編碼Character Encoding : 就是一套自然語言的字符與二進制數之間的對應規則。

    編碼表:生活中文字和計算機中二進制的對應規則

字符集

  • 字符集 Charset:也叫編碼表。是一個系統支持的所有字符的集合,包括各國家文字、標點符號、圖形符號、數字等。

計算機要準確的存儲和識別各種字符集符號,需要進行字符編碼,一套字符集必然至少有一套字符編碼。常見字符集有ASCII字符集、GBK字符集、Unicode字符集等
可見,當指定了編碼,它所對應的字符集自然就指定了,所以編碼纔是我們最終要關心的。

  • ASCII字符集
    • ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基於拉丁字母的一套電腦編碼系統,用於顯示現代英語,主要包括控制字符(回車鍵、退格、換行鍵等)和可顯示字符(英文大小寫字符、阿拉伯數字和西文符號)。
    • 基本的ASCII字符集,使用7位(bits)表示一個字符,共128字符。ASCII的擴展字符集使用8位(bits)表示一個字符,共256字符,方便支持歐洲常用字符。
  • ISO-8859-1字符集
    • 拉丁碼錶,別名Latin-1,用於顯示歐洲使用的語言,包括荷蘭、丹麥、德語、意大利語、西班牙語等。
    • ISO-8859-1使用單字節編碼,兼容ASCII編碼。
  • GBxxx字符集
    • GB就是國標的意思,是爲了顯示中文而設計的一套字符集。
    • GB2312:簡體中文碼錶。一個小於127的字符的意義與原來相同。但兩個大於127的字符連在一起時,就表示一個漢字,這樣大約可以組合了包含7000多個簡體漢字,此外數學符號、羅馬希臘的字母、日文的假名們都編進去了,連在ASCII裏本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼,這就是常說的"全角"字符,而原來在127號以下的那些就叫"半角"字符了。
    • GBK:最常用的中文碼錶。是在GB2312標準基礎上的擴展規範,使用了雙字節編碼方案,共收錄了21003個漢字,完全兼容GB2312標準,同時支持繁體漢字以及日韓漢字等。
    • GB18030:最新的中文碼錶。收錄漢字70244個,採用多字節編碼,每個字可以由1個、2個或4個字節組成。支持中國國內少數民族的文字,同時支持繁體漢字以及日韓漢字等。
  • Unicode字符集
    • Unicode編碼系統爲表達任意語言的任意字符而設計,是業界的一種標準,也稱爲統一碼、標準萬國碼。
    • 它最多使用4個字節的數字來表達每個字母、符號,或者文字。有三種編碼方案,UTF-8、UTF-16和UTF-32。最爲常用的UTF-8編碼。
    • UTF-8編碼,可以用來表示Unicode標準中任何字符,它是電子郵件、網頁及其他存儲或傳送文字的應用中,優先採用的編碼。互聯網工程工作小組(IETF)要求所有互聯網協議都必須支持UTF-8編碼。所以,我們開發Web應用,也要使用UTF-8編碼。它使用一至四個字節爲每個字符編碼,編碼規則:
      1. 128個US-ASCII字符,只需一個字節編碼。
      2. 拉丁文等字符,需要二個字節編碼。
      3. 大部分常用字(含中文),使用三個字節編碼。
      4. 其他極少使用的Unicode輔助字符,使用四字節編碼。

2. 亂碼問題

在IDEA中,使用FileReader 讀取項目中的文本文件。由於IDEA的設置,都是默認的UTF-8編碼,所以沒有任何問題。但是,當讀取Windows系統中創建的文本文件時,由於Windows系統的默認是GBK編碼,就會出現亂碼。

public class ReaderDemo {
    public static void main(String[] args) throws IOException {
        FileReader fileReader = new FileReader("E:\\File_GBK.txt");
        int read;
        while ((read = fileReader.read()) != -1) {
            System.out.print((char)read);
        }
        fileReader.close();
    }
}
輸出結果:
���

那麼如何讀取GBK編碼的文件呢?

3. InputStreamReader類

轉換流java.io.InputStreamReader,是Reader的子類,是從字節流到字符流的橋樑。它讀取字節,並使用指定的字符集將其解碼爲字符。它的字符集可以由名稱指定,也可以接受平臺的默認字符集。

構造方法

  • InputStreamReader(InputStream in): 創建一個使用默認字符集的字符流。
  • InputStreamReader(InputStream in, String charsetName): 創建一個指定字符集的字符流。

構造舉例,代碼如下:

InputStreamReader isr = new InputStreamReader(new FileInputStream("in.txt"));
InputStreamReader isr2 = new InputStreamReader(new FileInputStream("in.txt") , "GBK");

指定編碼讀取

public class ReaderDemo2 {
    public static void main(String[] args) throws IOException {
      	// 定義文件路徑,文件爲gbk編碼
        String FileName = "E:\\file_gbk.txt";
      	// 創建流對象,默認UTF8編碼
        InputStreamReader isr = new InputStreamReader(new FileInputStream(FileName));
      	// 創建流對象,指定GBK編碼
        InputStreamReader isr2 = new InputStreamReader(new FileInputStream(FileName) , "GBK");
		// 定義變量,保存字符
        int read;
      	// 使用默認編碼字符流讀取,亂碼
        while ((read = isr.read()) != -1) {
            System.out.print((char)read); // ��Һ�
        }
        isr.close();
      
      	// 使用指定編碼字符流讀取,正常解析
        while ((read = isr2.read()) != -1) {
            System.out.print((char)read);// 大家好
        }
        isr2.close();
    }
}

4. OutputStreamWriter類

轉換流java.io.OutputStreamWriter ,是Writer的子類,是從字符流到字節流的橋樑。使用指定的字符集將字符編碼爲字節。它的字符集可以由名稱指定,也可以接受平臺的默認字符集。

構造方法

  • OutputStreamWriter(OutputStream in): 創建一個使用默認字符集的字符流。
  • OutputStreamWriter(OutputStream in, String charsetName): 創建一個指定字符集的字符流。

構造舉例,代碼如下:

OutputStreamWriter isr = new OutputStreamWriter(new FileOutputStream("out.txt"));
OutputStreamWriter isr2 = new OutputStreamWriter(new FileOutputStream("out.txt") , "GBK");

指定編碼寫出

public class OutputDemo {
    public static void main(String[] args) throws IOException {
      	// 定義文件路徑
        String FileName = "E:\\out.txt";
      	// 創建流對象,默認UTF8編碼
        OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(FileName));
        // 寫出數據
      	osw.write("你好"); // 保存爲6個字節
        osw.close();
      	
		// 定義文件路徑
		String FileName2 = "E:\\out2.txt";
     	// 創建流對象,指定GBK編碼
        OutputStreamWriter osw2 = new OutputStreamWriter(new FileOutputStream(FileName2),"GBK");
        // 寫出數據
      	osw2.write("你好");// 保存爲4個字節
        osw2.close();
    }
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章