探尋計算機文件的本質

首先,讓我們來回顧下你通常認爲不值得一提的ASCII碼錶

ASCII碼一般分爲三個部分:

  1. Non printable, system codes between 0 and 31.
  2. Lower ASCII(Standart ASCII), between 32 and 127. This part of the table (as shown below) originates from older, American systems, which worked on 7-bit character tables. Foreign letters, like and were not available then.
  3. Higher ASCII(Extended ASCII), between 128 and 255. This part is programmable, in that you can exchange characters based on language you want to write in. Foreign letters are placed in this part and an example is shown below.

ascii[2][1]

ASCII 碼大致可以分作三部分組成。

第一部分由 00H 到 1FH 共 32 個,一般用來通訊或作為控制之用,有些字元可顯示於螢幕,有些則無法顯示在螢幕上,但能看到其效果(例如換行字元、歸位字元)。如下表:

第二部分是由 20H 到 7FH 共 96 個,這 95 個字元是用來表示阿拉伯數字、英文字母大小寫和底線、括號等符號,都可以顯示在螢幕上。如下表:

Below is the standard ASCII characters.

Dec Char Dec Char Dec Char Dec Char Dec Char Dec Char
33 ! 49 1 65 A 81 Q 97 a 113 q
34 " 50 2 66 B 82 R 98 b 114 r
35 # 51 3 67 C 83 S 99 c 115 s
36 $ 52 4 68 D 84 T 100 d 116 t
37 % 53 5 69 E 85 U 101 e 117 u
38 & 54 6 70 F 86 V 102 f 118 v
39 ' 55 7 71 G 87 W 103 g 119 w
40 ( 56 8 72 H 88 X 104 h 120 x
41 ) 57 9 73 I 89 Y 105 i 121 y
42 * 58 : 74 J 90 Z 106 j 122 z
43 + 59 ; 75 K 91 [ 107 k 123 {
44 , 60 < 76 L 92 \ 108 l 124 |
45 - 61 = 77 M 93 ] 109 m 125 }
46 . 62 > 78 N 94 ^ 110 n 126 ~
47 / 63 ? 79 O 95 _ 111 o 127 _
48 0 64 @ 80 P 96 ` 112 p    

第三部分由 80H 到 0FFH 共 128 個字元,一般稱為『擴充字元』,這 128 個擴充字元是由 IBM 制定的,並非標準的 ASCII 碼。這些字元是用來表示框線、音標和其他歐洲非英語系的字母。

Higher ASCII chart

一、文本文件與二進制文件的定.

大家都知道計算機的存儲在物理上是二進制的,所以文本文件與二進制文件的區別並不是物理上的,而是邏輯上的。這兩者只是在編碼層次上有差異。
簡單來說,文本文件是基於字符編碼的文件,常見的編碼有ASCII編碼,UNICODE編碼等等。

二進制文件是基於值編碼的文件,你可以根據具體應用,指定某個值是什麼意思(這樣一個過程,可以看作是自定義編碼)。
從上面可以看出文本文件基本上是定長編碼的,基於字符嘛,每個字符在具體編碼中是固定的,ASCII碼是8個比特的編碼,UNICODE一般佔16個比特。而二進制文件可看成是變長編碼的,因爲是值編碼嘛,多少個比特代表一個值,完全由你決定。大家可能對BMP文件比較熟悉,就拿它舉例子吧,其頭部是較爲固定長度的文件頭信息,前2字節用來記錄文件爲BMP格式,接下來的8個字節用來記錄文件長度,再接下來的4字節用來記錄bmp文件頭的長度。。。大家可以看出來了吧,其編碼是基於值的(不定長的,2、4、8字節長的值都有),所以BMP是二進制文件。

二、文本文件與二進制文件的存取 
文本工具打開一個文件的過程是怎樣的呢?拿記事本來說,它首先讀取文件物理上所對應的二進制比特流(前面已經說了,存儲都是二進制的),然後按照你所選擇的解碼方式來解釋這個流,然後將解釋結果顯示出來。一般來說,你選取的解碼方式會是ASCII碼形式(ASCII碼的一個字符是8個比特),接下來,它8個比特8個比特地來解釋這個文件流。例如對於這麼一個文件流"01000000_01000001_01000010_01000011"(下劃線'_',是我爲了增強可讀性,而手動添加的),第一個8比特'01000000'按ASCII碼來解碼的話,所對應的字符是字符'A',同理其它3個8比特可分別解碼爲'BCD',即這個文件流可解釋成“ABCD”,然後記事本就將這個“ABCD”顯示在屏幕上。
事實上,世界上任何東西要與其他東西通信會話,都存在一個既定的協議,既定的編碼。人與人之間通過文字聯絡,漢字“媽”代表生你的那個人,這就是一種既定的編碼。但注意到這樣一種情況,漢字“媽”在日本文字裏有可能是你生下的那個人,所以當一箇中國人A與日本B之間用“媽”這個字進行交流,出現誤解就很正常的。

用記事本打開二進制文件與上面的情況類似。記事本無論打開什麼文件都按既定的字符編碼工作(如ASCII碼),所以當他打開二進制文件時,出現亂碼也是很必然的一件事情了,解碼和譯碼不對應嘛。例如文件流'00000000_00000000_00000000_00000001'可能在二進制文件中對應的是一個四字節的整數int 1,在記事本里解釋就變成了"NULL_NULL_NULL_SOH"這四個控制符。
文本文件的存儲與其讀取基本上是個逆過程,不再累述。而二進制文件的存取顯然與文本文件的存取差不多,只是編/解碼方式不同而已,也不再敘述。  

三、文本文件與二進制文件的優缺點
因爲文本文件與二進制文件的區別僅僅是編碼上不同,所以他們的優缺點就是編碼的優缺點,這個找本編碼的書來看看就比較清楚了。一般認爲,文本文件編碼基於字符定長,譯碼容易些;二進制文件編碼是變長的,所以它靈活,存儲利用率要高些,譯碼難一些(不同的二進制文件格式,有不同的譯碼方式)。關於空間利用率,想想看,二進制文件甚至可以用一個比特來代表一個意思(位操作),而文本文件任何一個意思至少是一個字符.
很多書上還認爲,文本文件的可讀性要好些,存儲要花費轉換時間(讀寫要編譯碼),而二進制文件可讀性差,存儲不存在轉換時間(讀寫不要編解碼,直接寫值).這裏的可讀性是從軟件使用者角度來說的,因爲我們用通用的記事本工具就幾乎可以瀏覽所有文本文件,所以說文本文件可讀性好;而讀寫一個具體的二進制文件需要一個具體的文件解碼器,所以說二進制文件可讀性差,比如讀BMP文件,必須用讀圖軟件.而這裏的存儲轉換時間應該是從編程的角度來說的,因爲有些操作系統如windows需要對回車換行符進行轉換(將'\n',換成'\r\n',所以文件讀寫時,操作系統需要一個一個字符的檢查當前字符是不是'\n'或'\r\n').這個在存儲轉換在Linux操作系統中並不需要,當然,當在兩個不同的操作系統上共享文件時,這種存儲轉換又可能出來(如Linux系統和Windows系統共享文本文件)。

從編程的角度來講,兩種文件我們對待的方式是一樣,即都是01碼,只是邏輯上對其的解釋不一樣而已

發佈了34 篇原創文章 · 獲贊 7 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章