各種字符集和編碼詳解

在軟件的編碼和實現中,我們可能會碰到個 一個比較頭疼的問題--編碼,不同字符間的編碼和解碼,你確定瞭解各種字符的編碼嗎?一個朋友問到了我這個問題,我雖然能回答一兩個出來,但是感覺已經有點模糊,混亂了,在網上搜了搜,在書上翻了翻,總結一下吧。首先按照字符編碼的歷程來看:

1. ASCII

我們需要了解的最早編碼是ASCII碼。它用7個二進制位來表示,由於那個時期生產的大多數計算機使用8位大小的字節,因此用戶不僅可以存放所有可能的ASCII字符,而且有整整一位空餘下來。如果你技藝高超,可以將該位用做自己離奇的目的:WordStar中那個發暗的燈泡實際上設置這個高位,以指示一個單詞中的最後一個字母,同時這也宣示了WordStar只能用於英語文本。
  由於字節有多達8位的空間,因此許多人在想:“呀!我們可以把128~255之間的編碼用做個人的應用目的。”問題在於,同時產生這種想法的人相當多,而且在128~255之間的各個位置上應該存放什麼這一問題上,真是仁者見仁智者見智。事實上,只要人們開始在美國以外的地方購買計算機,那麼各種各樣的不同OEM字符集都會進入規劃設計行列,並且各人都會根據自己的需要使用高位的128個字符。如此一來,甚至在同語種的文檔之間就不容易實現互換。 ASCII可被擴展,最優秀的擴展方案是ISO 8859-1,通常稱之爲Latin-1。Latin-1包括了足夠的附加字符集來寫基本的西歐語言。
最後,這個人人蔘與的OEM終於以ANSI標準的形式形成文件。在ANSI標準中,每個人都認同如何使用低端的128個編碼,這與ASCII相當一致。不過,根據所在國籍的不同,處理編碼128以上的字符有許多不同的方式。這些不同的系統稱爲代碼頁。
  同時,甚至更爲令人頭疼的事情正在逐步上演,亞洲國家的字符表有成千上萬個字符,這樣的字符表是用8位二進制無法表示的。該問題的解決通常有賴於稱爲DBCS(double byte character set,雙字節字符集)的繁雜字符系統。
  不過,仍然需要指出一點,多數人還是姑且認爲一個字節就是一個字符,以及一個字符就是8個二進制位,並且只要確保不將字符串從一臺計算機移植到另一臺計算機,或者說一種以上的語言,那麼這幾乎總是可以湊合。當然,只要一進入Internet,從一臺計算機向另一臺計算機移植字符串就成爲家常便飯了,而各種複雜狀況也隨之呈現出來。令人欣慰的是,Unicode隨即問世了。

作用:表語英語及西歐語言。

位數:ASCII是用7位表示的,能表示128個字符;其擴展使用8位表示,表示256個字符。

範圍:ASCII從00到7F,擴展從00到FF。

2.iso8859-1

屬於單字節編碼,最多能表示的字符範圍是0-255,應用於英文系列。比如,字母'a'的編碼爲0x61=97。

很明顯,iso8859-1編碼表示的字符範圍很窄,無法表示中文字符。但是,由於是單字節編碼,和計算機最基礎的表示單位一致,所以很多時候,仍舊使用iso8859-1編碼來表示。而且在很多協議上,默認使用該編碼。比如,雖然"中文"兩個字不存在iso8859-1編碼,以gb2312編碼爲例,應該是"d6d0 cec4"兩個字符,使用iso8859-1編碼的時候則將它拆開爲4個字節來表示:"d6 d0 ce c4"(事實上,在進行存儲的時候,也是以字節爲單位處理的)。而如果是UTF編碼,則是6個字節"e4 b8 ad e6 96 87"。很明顯,這種表示方法還需要以另一種編碼爲基礎。

作用:擴展ASCII,表示西歐、希臘語等。

位數:8位,

範圍:從00到FF,兼容ASCII字符集。

 

3. GB碼字符集

全稱是GB2312-80《信息交換用漢字編碼字符集基本集》,1980年發佈,是中文信息處理的國家標準,在大陸及海外使用簡體中文的地區(如新加坡等)是強制使用的唯一中文編碼。P-Windows3.2和蘋果OS就是以GB2312爲基本漢字編碼, Windows 95/98則以GBK爲基本漢字編碼、但兼容支持GB2312。
雙字節編碼
範圍:A1A1~FEFE
A1-A9:符號區,包含682個符號
B0-F7:漢字區,包含6763個漢字

4.GB2312字符集

GB2312(1980年)一共收錄了7445個字符,包括6763個漢字和682個其它符號。漢字區的內碼範圍高字節從B0-F7,低字節從 A1-FE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。GB2312-80中共收錄了7545個字符,用兩個字節編碼一個字符。每個字符最高位爲0。GB2312-80編碼簡稱國標碼。

  GB2312支持的漢字太少。1995年的漢字擴展規範GBK1.0收錄了21886個符號,它分爲漢字區和圖形符號區。漢字區包括21003個字符。

作用:國家簡體中文字符集,兼容ASCII。

位數:使用2個字節表示,能表示7445個符號,包括6763個漢字,幾乎覆蓋所有高頻率漢字。

範圍:高字節從A1到F7, 低字節從A1到FE。將高字節和低字節分別加上0XA0即可得到編碼。

5. GB12345-90字符集

1990年制定了繁體字的編碼標準GB12345-90《信息交換用漢字編碼字符集第一輔助集》,目的在於規範必須使用繁體字的各種場合,以及古籍整理等。該標準共收錄6866個漢字(比GB2312多103個字,其它廠商的字庫大多不包括這些字),純繁體的字大概有2200餘個。
雙字節編碼
範圍:A1A1~FEFE
A1-A9:符號區,增加豎排符號
B0-F9:漢字區,包含6866個漢字

 

6.GBK字符集

GBK編碼(Chinese Internal Code Specification)是中國大陸制訂的、等同於UCS的新的中文編碼擴展國家標準。gbk編碼能夠用來同時表示繁體字和簡體字,而gb2312只能表示簡體字,gbk是兼容gb2312編碼的。GBK工作小組於1995年10月,同年12月完成GBK規範。該編碼標準兼容GB2312,共收錄漢字21003個、符號883個,並提供1894個造字碼位,簡、繁體字融於一庫。Windows95/98簡體中文版的字庫表層編碼就採用的是GBK,通過GBK與UCS之間一一對應的碼錶與底層字庫聯繫。
英文名:Chinese Internal Code Specification
中文名:漢字內碼擴展規範1.0版
雙字節編碼,GB2312-80的擴充,在碼位上和GB2312-80兼容
範圍:8140~FEFE(剔除xx7F)共23940個碼位
包含21003個漢字,包含了ISO/IEC 10646-1中的全部中日韓漢字

作用:它是GB2312的擴展,加入對繁體字的支持,兼容GB2312。

位數:使用2個字節表示,可表示21886個字符。

範圍:高字節從81到FE,低字節從40到FE。

 

7. BIG5字符集

是目前臺灣、香港地區普遍使用的一種繁體漢字的編碼標準,包括440個符號,一級漢字5401個、二級漢字7652個,共計13060個漢字。BIG5又稱大五碼或五大碼,1984年由臺灣財團法人信息工業策進會和五間軟件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大衆 (FIC)創立,故稱大五碼。Big5碼的產生,是因爲當時臺灣不同廠商各自推出不同的編碼,如倚天碼、IBM PS55、王安碼等,彼此不能兼容;另一方面,臺灣政府當時尚未推出官方的漢字編碼,而中國大陸的GB2312編碼亦未有收錄繁體中文字。

Big5字符集共收錄13,053箇中文字,該字符集在中國臺灣使用。耐人尋味的是該字符集重複地收錄了兩個相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

Big5碼使用了雙字節儲存方法,以兩個字節來編碼一個字。第一個字節稱爲“高位字節”,第二個字節稱爲“低位字節”。高位字節的編碼範圍0xA1-0xF9,低位字節的編碼範圍0x40-0x7E及0xA1-0xFE。

儘管Big5碼內包含一萬多個字符,但是沒有考慮社會上流通的人名、地名用字、方言用字、化學及生物科等用字,沒有包含日文平假名及片假字母。

例如臺灣視“着”爲“著”的異體字,故沒有收錄“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常見的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也沒有收錄到Big5之中。

作用:統一繁體字編碼。

位數:使用2個字節表示,表示13053個漢字。

範圍:高字節從A1到F9,低字節從40到7E,A1到FE。


 

8.GB18030字符集

GB 18030-2000全稱是《信息技術信息交換用漢字編碼字符集基本集的擴充》,由信息產業部和原國家質量技術監督局於2000年3月17日聯合發佈,作爲國家強制性標準自發布之日起實施。

爲了適應信息處理技術快速發展的需要,1998年10月,由信息產業部電子四所、北京大學計算機技術研究所、北大方正集團、新天地公司、四通新世紀公司、中科院軟件所、長城軟件公司、中軟總公司、金山軟件公司和聯想公司的技術人員組成標準起草組。在標準研製過程中,全國信息技術標準化技術委員會多次召集標準起草組和知名公司對標準草案進行充分地研究論證,並且特邀了微軟公司、惠普公司、Sun公司和IBM公司等參加,廣泛徵求意見。標準起草組經過反覆斟酌和驗證,提出了標準制定原則——與GB 2312信息處理交換碼所對應的事實上的內碼標準兼容,在字彙上支持GB 13000.1的全部中、日、韓(CJK)統一漢字字符和全部CJK擴充A的字符,並且確定了編碼體系和27484個漢字,形成兼容性、擴展性、前瞻性兼備的方案。

該標準採用單字節、雙字節和四字節三種方式對字符編碼。

作用:它解決了中文、日文、朝鮮語等的編碼,兼容GBK。

位數:它採用變字節表示(1 ASCII,2,4字節)。可表示27484個文字。

範圍:1字節從00到7F; 2字節高字節從81到FE,低字節從40到7E和80到FE;4字節第一三字節從81到FE,第二四字節從30到39。



 

9.通用字符集(UCS)字符集

ISO/IEC 10646-1 [ISO-10646]定義了一種多於8比特字節的字符集,稱作通用字符集(UCS),它包含了世界上大多數可書寫的字符系統。已定義了兩種多8比特字節編碼,對每一個字符采用四個8比特字節編碼的稱爲UCS-4,對每一個字符采用兩個8比特字節編碼的稱爲UCS-2。它們僅能夠對UCS的前64K字符進行編址,超出此範圍的其它部分當前還沒有分配編址。

作用:國際標準 ISO 10646 定義了通用字符集 (Universal Character Set)。它是與UNICODE同類的組織,UCS-2和UNICODE兼容。

位數:它有UCS-2和UCS-4兩種格式,分別是2字節和4字節。

範圍:目前,UCS-4只是在UCS-2前面加了0x0000。

 

10.Unicode字符集

Unicode字符集(簡稱爲UCS),國際標準組織於1984年4月成立ISO/IEC JTC1/SC2/WG2工作組,針對各國文字、符號進行統一性編碼。1991年美國跨國公司成立Unicode Consortium,並於1991年10月與WG2達成協議,採用同一編碼字集。目前Unicode是採用16位編碼體系,其字符集內容與ISO10646的BMP(Basic Multilingual Plane)相同。Unicode於1992年6月通過DIS(Draf International Standard),目前版本V2.0於1996公佈,內容包含符號6811個,漢字20902個,韓文拼音11172個,造字區6400個,保留20249個,共計65534個。Unicode編碼後的大小是一樣的.例如一個英文字母 "a" 和 一個漢字 "好",編碼後都是佔用的空間大小是一樣的,都是兩個字節!

Unicode可以用來表示所有語言的字符,而且是定長雙字節(也有四字節的)編碼,包括英文字母在內。所以可以說它是不兼容iso8859-1編碼的,也不兼容任何編碼。不過,相對於iso8859-1編碼來說,uniocode編碼只是在前面增加了一個0字節,比如字母'a'爲"00 61"。

需要說明的是,定長編碼便於計算機處理(注意GB2312/GBK不是定長編碼),而unicode又可以用來表示所有字符,所以在很多軟件內部是使用unicode編碼來處理的,比如java。

UNICODE字符集有多個編碼方式,分別是UTF-8,UTF-16,UTF-32和UTF-7編碼

UTF-8

UTF:UCS Transformation Format.考慮到unicode編碼不兼容iso8859-1編碼,而且容易佔用更多的空間:因爲對於英文字母,unicode也需要兩個字節來表示。所以unicode不便於傳輸和存儲。因此而產生了utf編碼,utf編碼兼容iso8859-1編碼,同時也可以用來表示所有語言的字符,不過,utf編碼是不定長編碼,每一個字符的長度從1-6個字節不等。另外,utf編碼自帶簡單的校驗功能。一般來講,英文字母都是用一個字節表示,而漢字使用三個字節。

注意,雖然說utf是爲了使用更少的空間而使用的,但那只是相對於unicode編碼來說,如果已經知道是漢字,則使用GB2312/GBK無疑是最節省的。不過另一方面,值得說明的是,雖然utf編碼對漢字使用3個字節,但即使對於漢字網頁,utf編碼也會比unicode編碼節省,因爲網頁中包含了很多的英文字符。

UTF8編碼後的大小是不一定,例如一個英文字母"a" 和 一個漢字 "好",編碼後佔用的空間大小就不樣了,前者是一個字節,後者是三個字節!編碼的方法是從低位到高位。黃色爲標誌位其它着色爲了顯示其,編碼後的位置。

UTF-16

採用2字節,Unicode中不同部分的字符都同樣基於現有的標準。這是爲了便於轉換。從 0x0000到0x007F是ASCII字符,從0x0080到0x00FF是ISO-8859-1對ASCII的擴展。希臘字母表使用從0x0370到0x03FF 的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代 碼。中國、日本和韓國的象形文字(總稱爲CJK)佔用了從0x3000到0x9FFF的代碼;

由於0x00在c語言及操作系統文件名等中有特殊意義,故很多情況下需要UTF-8編碼保存文本,去掉這個0x00。舉例如下:

UTF-16: 0x0080 = 0000 0000 1000 0000

UTF-8: 0xC280 = 1100 0010 1000 0000

UTF-32

採用4字節。

UTF-7

A Mail-Safe Transformation Format of Unicode(RFC1642)。這是一種使用 7 位 ASCII 碼對 Unicode 碼進行轉換的編碼。它的設計目的仍然是爲了在只能傳遞 7 爲編碼的郵件網關中傳遞信息。 UTF-7 對英語字母、數字和常見符號直接顯示,而對其他符號用修正的 Base64 編碼。符號 + 和 - 號控制編碼過程的開始和暫停。所以亂碼中如果夾有英文單詞,並且相伴有 + 號和 - 號,這就有可能是 UTF-7 編碼。

作用:爲世界650種語言進行統一編碼,兼容ISO-8859-1。

位數:UNICODE字符集有多個編碼方式,分別是UTF-8,UTF-16和UTF-32。

優缺點:

· UTF-8、UTF-16和UTF-32都可以表示有效編碼空間 (U+000000-U+10FFFF) 內的所有Unicode字符。

· 使用UTF-8編碼時ASCII字符只佔1個字節,存儲效率比較高,適用於拉丁字符較多的場合以節省空間。

· 對於大多數非拉丁字符(如中文和日文)來說,UTF-16所需存儲空間最小,每個字符只佔2個字節。

· Windows NT內核是Unicode(UTF-16),採用UTF-16編碼在調用系統API時無需轉換,處理速度也比較快。

· 採用UTF-16和UTF-32會有Big Endian和Little Endian之分,而UTF-8則沒有字節順序問題,所以UTF-8適合傳輸和通信。

· UTF-32採用4字節編碼,一方面處理速度比較快,但另一方面也浪費了大量空間,影響傳輸速度,因而很少使用。

很多人以爲UTF-8等和Unicode都是字符集或都是編碼方式,其實這是誤區。

到以上爲止,大部分常用的字符集已經基本列舉完畢,再看一些其他的編碼方式:

MIME 編碼

MIME 是“多用途網際郵件擴充協議”的縮寫,在 MIME 協議之前,郵件的編碼曾經有過 UUENCODE 等編碼方式 ,但是由於 MIME 協議算法簡單,並且易於擴展,現在已經成爲郵件編碼方式的主流,不僅是用來傳輸 8 bit 的字符,也可以用來傳送二進制的文件 ,如郵件附件中的圖像、音頻等信息,而且擴展了很多基於MIME 的應用。從編碼方式來說,MIME 定義了兩種編碼方法Base64與QP(Quote-Printable)

Base64

按照RFC2045的定義,Base64被定義爲:Base64內容傳送編碼被設計用來把任意序列的8位字節描述爲一種不易被人直接識別的形式。

爲什麼要使用Base64?

在設計這個編碼的時候,我想設計人員最主要考慮了3個問題:
1.是否加密?
2.加密算法複雜程度和效率
3.如何處理傳輸?

加密是肯定的,但是加密的目的不是讓用戶發送非常安全的Email。這種加密方式主要就是“防君子不防小人”。即達到一眼望去完全看不出內容即可。
基於這個目的加密算法的複雜程度和效率也就不能太大和太低。和上一個理由類似,MIME協議等用於發送Email的協議解決的是如何收發Email,而並不是如何安全的收發Email。因此算法的複雜程度要小,效率要高,否則因爲發送Email而大量佔用資源,路就有點走歪了。

但是,如果是基於以上兩點,那麼我們使用最簡單的愷撒法即可,爲什麼Base64看起來要比愷撒法複雜呢?這是因爲在Email的傳送過程中,由於歷史原因,Email只被允許傳送ASCII字符,即一個8位字節的低7位。因此,如果您發送了一封帶有非ASCII字符(即字節的最高位是1)的Email通過有“歷史問題”的網關時就可能會出現問題。網關可能會把最高位置爲0!很明顯,問題就這樣產生了!因此,爲了能夠正常的傳送Email,這個問題就必須考慮!所以,單單靠改變字母的位置的愷撒之類的方案也就不行了。關於這一點可以參考RFC2046。
基於以上的一些主要原因產生了Base64編碼。

Base64編碼要求把3個8位字節(3*8=24)轉化爲4個6位的字節(4*6=24),之後在6位的前面補兩個0,形成8位一個字節的形式。

QP(Quote-Printable)

通常縮寫爲“Q”方法,其原理是把一個 8 bit 的字符用兩個16進制數值表示,然後在前面加“=”。所以我們看到經過QP編碼後的文件通常是這個樣子:=B3=C2=BF=A1=C7=E5=A3=AC=C4=FA=BA=C3=A3=A1。

最後,我們希望你看了這篇文章之後不要混淆字符集和字符編碼的概念,還有對以上談到的各種編碼方式的原因有大致的瞭解,象utf-8這類是爲了解析unicode這種字符集而制定,而base64這類是爲了解決實際的網絡應用而制定。爲了讓你便於記憶,對先前介紹的字符集進行統計和分類:

語言
字符集
正式名稱
英語、西歐語
ASCIIISO-8859-1
MBCS 多字節
簡體中文
GB2312
MBCS 多字節
繁體中文
BIG5
MBCS 多字節
簡繁中文
GBK
MBCS 多字節
中文、日文及朝鮮語
GB18030
MBCS 多字節
各國語言
UNICODEUCS
DBCS 寬字節

 

 

 

 

 

轉載至:http://blog.csdn.net/ancky/article/details/2034809

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章