Unicode字符集和多字節字符集關係

         在計算機中字符通常並不是保存爲圖像,每個字符都是使用一個編碼來表示的,而每個字符究竟使用哪個編碼代表,要取決於使用哪個字符集(charset)。  在最初的時候,Internet上只有一種字符集——ANSI的ASCII字符集,它使用7 bits來表示一個字符,總共表示128個字符,其中包括了英文字母、數字、標點符號等常用字符。之後,又進行擴展,使用8 bits表示一個字符,可以表示256個字符,主要在原來的7 bits字符集的基礎上加入了一些特殊符號例如製表符。  後來,由於各國語言的加入,ASCII已經不能滿足信息交流的需要,因此,爲了能夠表示其它國家的文字,各國在ASCII的基礎上制定了自己的字符集,這些從ANSI標準派生的字符集被習慣的統稱爲ANSI字符集,它們正式的名稱應該是MBCS(Multi-Byte Chactacter System,即多字節字符系統)。這些派生字符集的特點是以ASCII 127 bits爲基礎,兼容ASCII 127,他們使用大於128的編碼作爲一個Leading Byte,緊跟在Leading Byte後的第二(甚至第三)個字符與Leading Byte一起作爲實際的編碼。這樣的字符集有很多,我們常見的GB-2312就是其中之一。  例如在GB-2312字符集中,“連通”的編碼爲C1 AC CD A8,其中C1和CD就是Leading Byte。前127個編碼爲標準ASCII保留,例如“0”的編碼是30H(30H表示十六進制的30)。軟件在讀取時,如果看到30H,知道它小於128就是標準ASCII,表示“0”,看到C1大於128就知道它後面有一個另外的編碼,因此C1 AC一同構成一個整個的編碼,在GB-2312字符集中表示“連”。  由於每種語言都制定了自己的字符集,導致最後存在的各種字符集實在太多,在國際交流中要經常轉換字符集非常不便。因此,提出了Unicode字符集,它固定使用16 bits(兩個字節、一個字)來表示一個字符,共可以表示65536個字符。將世界上幾乎所有語言的常用字符收錄其中,方便了信息交流。標準的Unicode稱爲UTF-16。後來爲了雙字節的Unicode能夠在現存的處理單字節的系統上正確傳輸,出現了UTF-8,使用類似MBCS的方式對Unicode進行編碼。注意UTF-8是編碼,它屬於Unicode字符集。Unicode字符集有多種編碼形式,而ASCII只有一種,大多數MBCS(包括GB-2312)也只有一種。Unicode的最初目標,是用1個16位的編碼來爲超過65000字符提供映射。但這還不夠,它不能覆蓋全部歷史上的文字,也不能解決傳輸的問題 (implantation head-ache's),尤其在那些基於網絡的應用中。已有的軟件必須做大量的工作來程序16位的數據。因此,Unicode用一些基本的保留字符制定了三套編碼方式。它們分別是UTF-8,UTF-16和UTF-32。正如名字所示,在UTF-8中,字符是以8位序列來編碼的,用一個或幾個字節來表示一個字符。這種方式的最大好處,是UTF-8保留了ASCII字符的編碼做爲它的一部分,例如,在UTF-8和ASCII中,“A”的編碼都是0x41.UTF-16和UTF-32分別是Unicode的16位和32位編碼方式。考慮到最初的目的,通常說的Unicode就是指UTF-16。  例如“連通”兩個字的Unicode標準編碼UTF-16 (big endian)爲:DE 8F 1A 90而其UTF-8編碼爲:E8 BF 9E E9 80 9A  最後,當一個軟件打開一個文本時,它要做的第一件事是決定這個文本究竟是使用哪種字符集的哪種編碼保存的。軟件有三種途徑來決定文本的字符集和編碼:  最標準的途徑是檢測文本最開頭的幾個字節,如下表:開頭字節 Charset/encodingEF BB BF UTF-8FE FF UTF-16/UCS-2, little endianFF FE UTF-16/UCS-2, big endianFF FE 00 00 UTF-32/UCS-4, little endian.00 00 FE FF UTF-32/UCS-4, big-endian.例如**標記後,連通”兩個字的UTF-16 (big endian)和UTF-8碼分別爲:FF FE DE 8F 1A 90EF BB BF E8 BF 9E E9 80 9A  但是MBCS文本沒有這些位於開頭的字符集標記,更不幸的是,一些早期的和一些設計不良的軟件在保存Unicode文本時不**這些位於開頭的字符集標記。因此,軟件不能依賴於這種途徑。這時,軟件可以採取一種比較安全的方式來決定字符集及其編碼,那就是彈出一個對話框來請示用戶,例如將那個“連通”文件拖到MS Word中,Word就會彈出一個對話框。  如果軟件不想麻煩用戶,或者它不方便向用戶請示,那它只能採取自己“猜”的方法,軟件可以根據整個文本的特徵來猜測它可能屬於哪個charset,這就很可能不準了。使用記事本打開那個“連通”文件就屬於這種情況。  我們可以證明這一點:在記事本中鍵入“連通”後,選擇“Save As”,會看到最後一個下拉框中顯示有“ANSI”,這時保存。當再當打開“連通”文件出現亂碼後,再點擊“File”->“Save As”,會看到最後一個下拉框中顯示有“UTF-8”,這說明記事本認爲當前打開的這個文本是一個UTF-8編碼的文本。而我們剛纔保存時是用ANSI字符集保存的。這說明,記事本猜測了“連通”文件的字符集,認爲它更像一個UTF-8編碼文本。這是因爲“連通”兩個字的GB-2312編碼看起來更像UTF-8編碼導致的,這是一個巧合,不是所有文字都這樣。可以使用記事本的打開功能,在打開“連通”文件時在最後一個下拉框中選擇ANSI,就能正常顯示了。反過來,如果之前保存時保存爲UTF-8編碼,則直接打開也不會出現問題。  如果將“連通”文件放入MS Word中,Word也會認爲它是一個UTF-8編碼的文件,但它不能確定,因此會彈出一個對話框詢問用戶,這時選擇“簡體中文(GB2312)”,就能正常打開了。記事本在這一點上做得比較簡化罷了,這與這個程序的定位是一致的。需要提醒大家的是,部分Windows 2000字型無法顯示所有的Unicode字符。如果發現文件中缺少了某些字符,只需將其變更爲其它字型即可。big endian和little endianbig endian和little endian是CPU處理多字節數的不同方式。例如“漢”字的Unicode編碼是6C49。那麼寫到文件裏時,究竟是將6C寫在前面,還是將49寫在前面?如果將6C寫在前面,就是big endian。還是將49寫在前面,就是little endian。“endian”這個詞出自《格列佛遊記》。小人國的內戰就源於吃雞蛋時是究竟從大頭(Big-Endian)敲開還是從小頭(Little-Endian)敲開,由此曾發生過六次叛亂,其中一個皇帝送了命,另一個丟了王位。我們一般將endian翻譯成“字節序”,將big endian和little endian稱作“大尾”和“小尾”。Unicode big endian:在Big-endian處理器(如蘋果Macintosh電腦)上建立的Unicode文件中的文字位元組(存放單位)排列順序,與在Intel處理器上建立的文件的文字位元組排列順序相反。最重要的位元組擁有最低的地址,且會先儲存文字中較大的一端。爲使這類電腦的用戶能夠存取你的文件,可選擇Unicode big-endian格式。


轉載自:http://blog.163.com/ssou_1985/blog/static/295320362010230961278/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章