java字節流與字符流的區別&編碼&緩衝

部分摘自http://blog.csdn.net/cynhafa/article/details/6882061

     所有的文件在存儲和傳輸時都是以字節(byte)爲單位進行的,包括圖片等都是按字節的方式存儲的,而字符只有在內存中才會形成,在磁盤上保留的並不是文件的字符而是先把字符編碼成字節,再儲存這些字節到磁盤。在讀取文件(特別是文本文件)時,也是一個字節一個字節地讀取以形成字節序列。所以在開發中,字節流使用較爲廣泛
     字節流主要用來處理字節或二進制對象
        字符流主要用來處理字符或字符串
     字節流可用於任何類型的對象,包括二進制對象,而字符流只能處理字符或者字符串
     字節流提供了處理任何類型的IO操作的功能,但它不能直接處理Unicode字符,而字符流就可以
     字符流處理的單元爲2個字節的Unicode字符,分別操作字符、字符數組或字符串,而字節流處理單元爲1個字節,操作字節和字節數組。所以字符流是由Java虛擬機將字節轉化爲2個字節的Unicode字符爲單位的字符而成的,所以它對多國語言支持性比較好!如果是音頻文件、圖片、歌曲,就用字節流好點,如果是關係到中文(文本)的,用字符流好點
     字節流在操作時本身不會用到緩衝區(內存),是文件本身直接操作的,而字符流在操作時使用了緩衝區,通過緩衝區再操作文件。
   
在字符流的操作中,所有的字符都是在內存中形成的,在輸出前會將所有的內容暫時保存在內存之中,所以使用了緩衝區暫存數據。
    
字節流是最基本的,所有的InputStream和OutputStream的子類都是,主要用在處理二進制數據,它是按字節來處理的;但實際中很多的數據是文本,又提出了字符流的概念,它是按虛擬機的encode來處理,也就是要進行字符集的轉化,這兩個之間通過 InputStreamReader,OutputStreamWriter來關聯,實際上是通過byte[]和String來關聯,在實際開發中出現的漢字問題實際上都是在字符流和字節流之間轉化不統一而造成的
     在從字節流轉化爲字符流時,實際上就是byte[]轉化爲String時,public String(byte bytes[], String charsetName)
有一個關鍵的參數字符集編碼,通常我們都省略了,那系統就用操作系統的lang,而在字符流轉化爲字節流時,實際上是String轉化爲byte[]時,byte[]  String.getBytes(String charsetName)也是一樣的道理

對於我們常用的GBK中,英文是佔用1個字節,中文是2個
對於UTF-8,英文是1個,中文是3個
對於Unicode,英文中文都是2個

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章