借用知乎上的回答:
屬於GBK的遺留問題,當年定義GBK的時候同期的Unicode還沒收“龍天”所以GBK給制定了個用戶自定義區的碼e863,後來Unicode收了該字,就在正式區分了碼4dae。有些輸入法按GBK規範做就是輸出e863,另一些按Unicode做,輸出就是4dae,理論上,應該以4dae爲準,畢竟現在是Unicode的天下了
鏈接:https://www.zhihu.com/question/29273111/answer/100904852
以下轉載自:http://code.web.idv.hk/index.php
GB 18030 編碼表
因 GB 18030 的設計是要把整個 Unicode 的字碼作對應,所以 GB 18030 的碼表,也與 Unicode 一樣龐大。
GB 18030 至今共有兩個版本:GB 18030-2000 和 GB 18030-2005。2005年版為現行版本。兩者分別見下。
在2018年7月,全國信息技術標準化技術委員會擬製作新的 GB 18030 版本,相信最終本將稱為 GB 18030-2019,並計劃在2019年下半年發佈。新版本目標是把所有《通用規範漢字表》的漢字,和直至 CJK-F 區的所有漢字都收錄在內(CJK 主區剩餘的 66 (74 減去已收錄的 U+9FB4–U+9FBB) 字、CJK-C 區 的 4149 字、CJK-D 區的 222 字、CJK-E 區的 5762字、CJK-F 區的 7473 字,共 87916 字)。
不過,此擬修訂版本,不明所意地打算把位於「相容表意文字區」中但實則獨一的漢字:U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),和另外 9 個兼容漢字(郎、凉、秊、裏、隣、兀、嗀、礼、蘒)刪除。
請按下拉選框,選擇你想查詢的字碼。字碼第一欄以 Unicode 排序,第二欄為 GB 18030 內碼。有需要時輔以第三欄說明。
請選擇 U+0000–U+0FFF U+1000–U+1FFF U+2000–U+2FFF U+3000–U+3FFF U+4000–U+4FFF U+5000–U+5FFF U+6000–U+6FFF U+7000–U+7FFF U+8000–U+8FFF U+9000–U+9FFF U+A000–U+AFFF U+B000–U+BFFF U+C000–U+CFFF U+D000–U+D7FF U+E000–U+F8FF(私人使用區) U+F900–U+FFFF(兼容區) 多文種補充平面 (SMP) 表意文字補充平面 (SIP) 表意文字第三平面(TIP,未正式使用) 第4輔助平面(尚未使用) 第5輔助平面(尚未使用) 第6輔助平面(尚未使用) 第7輔助平面(尚未使用) 第8輔助平面(尚未使用) 第9輔助平面(尚未使用) 第10輔助平面(尚未使用) 第11輔助平面(尚未使用) 第12輔助平面(尚未使用) 第13輔助平面(尚未使用) 特別用途補充平面 (SSP) 第15輔助平面(私人使用區A區) 第16輔助平面(私人使用區B區)
GBK與GB 2312的分別
- GB 2312 2字節碼位,第一個字節的值從 0xA1–FE(0xAA–AF 和 0xF8–FE 實際未使用),第二個字節的值從 0xA1–FE。
GBK 2字節碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x40–7E 和 0x80–FE。 - GB 2312 只有 6,763 個漢字。GBK 收錄所有中日韓統一表意文字基本區漢字。
0x8140–A0FE,加入 6,080 個漢字;0xAA40–FD9B(不包括原有 GB 2312 範圍),加入 8,059 個漢字;0xFD9C–FE4F,加入 21 個兼容漢字。 - GB 2312 只有 682 個符號。在後來的字形標準如 GB 5007.1 和 GB 6345.1 等,在 0xA8BB–A8C0 補上六個拼音符號:ɑ ḿ ń ň ǹ ɡ。GBK 承繼了這些符號。
- GBK 加入 10 個小寫羅馬數字 ⅰ–ⅹ (0xA2A1–A2AA)。
- GBK 加入 29 個豎排標點符號 (0xA6D9–A6F5)。來源自 GB 12345 標準。
- GBK 加入臺灣電腦系統用的符號 (0xA840–A895, 0xA940–A988,不包含 A958, A95B, A95D–A95F)。
但實際上,臺灣電腦系統並沒有 0xA844(―), 0xA891(☉), 0xA95C(‐) 。
Big5 碼的 0xA145(‧), 0xA15A(╴), 0xA1C2(¯ 或 ‾), 0xA1C5(ˍ) 亦沒有在 GBK 出現。 - 加入表意文字描述符 (0xA989–A995) 和漢字數字零 〇 (0xA996)
- 加入當時 Unicode 尚未收錄的 52 個《簡化字總表》漢字、28 個《康熙字典》和《辭海》漢字部件 (0xFE50–FEA0)。
- 註:GB 5007.1 和 GB 6345.1 等標準,在第 10 區(內碼 0xAAA1–AAFE)補充 94 個半形 ASCII 字符、
在第 11 區(內碼 0xABA1–ABC0)補充漢語拼音 ü 的半形字符、a, e, i, o, u, ü 陰陽上去四聲的半形字符、和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 個。
GBK 和 GB 18030 標準均沒有遵從。
GBK與微軟CP936的分別
- 微軟 CP936 在 0x80 加入歐元符號 €(1995年 GBK 推出時,歐元尚未誕生)
- 微軟 CP936 沒有 0xA6D9–A6DF, A6EC–A6ED, A6F3, A8BC, A8BF, A989–A995, FE50–FEA0(GB 13000.1 / Unicode 1.0 沒有那些字符)。
GB 18030-2000與GBK的分別
- GB 18030-2000 增加了4字節的碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x30–39,第三個字節從 0x81–FE,第四個字節從 0x30–39。並把 Unicode 的所有可能編碼,都對應到其中一個 GB 18030 碼位。
- GB 18030-2000 收錄所有中日韓統一表意文字擴展A區漢字。
- GB 18030-2000 把歐元符號收錄在 0xA2E3。
很不幸,在微軟簡體中文系統,0x80 依舊是歐元符號;0xA2E3 則另有一個歐元符號,對應至私人造字碼 U+E76C。 - 因為 Unicode ≥3.0 已收錄以下字符,在 GB 18030-2000 的官方文件附錄E 和 GB 18030-2005 的官方文件附錄E-表E.1,列出了以下字符在下一版 GB 13000(註:相當於 ISO/IEC 10646:2003)的位置。事實上,GB 18030-2000 和 -2005 已修改了它們所對應的 Unicode 對應。
GB碼位 | 字符 | GBK 對應的造字區 | GB 18030 對應的Unicode |
---|---|---|---|
A8BF | ǹ | U+E7C8 | U+01F9 |
A989 | 〾 | U+E7E7 | U+303E |
A98A | ⿰ | U+E7E8 | U+2FF0 |
A98B | ⿱ | U+E7E9 | U+2FF1 |
A98C | ⿲ | U+E7EA | U+2FF2 |
A98D | ⿳ | U+E7EB | U+2FF3 |
A98E | ⿴ | U+E7EC | U+2FF4 |
A98F | ⿵ | U+E7ED | U+2FF5 |
A990 | ⿶ | U+E7EE | U+2FF6 |
A991 | ⿷ | U+E7EF | U+2FF7 |
A992 | ⿸ | U+E7F0 | U+2FF8 |
A993 | ⿹ | U+E7F1 | U+2FF9 |
A994 | ⿺ | U+E7F2 | U+2FFA |
A995 | ⿻ | U+E7F3 | U+2FFB |
FE50 | ⺁ | U+E815 | U+2E81 |
FE54 | ⺄ | U+E819 | U+2E84 |
FE55 | 㑳 | U+E81A | U+3473 |
FE56 | 㑳 | U+E81B | U+3447 |
FE57 | ⺈ | U+E81C | U+2E88 |
FE58 | ⺋ | U+E81D | U+2E8B |
FE5A | 喎 | U+E81F | U+359E |
FE5B | 㘚 | U+E820 | U+361A |
FE5C | 㘚 | U+E821 | U+360E |
FE5D | ⺌ | U+E822 | U+2E8C |
FE5E | ⺗ | U+E823 | U+2E97 |
FE5F | 㥮 | U+E824 | U+396E |
FE60 | 㥮 | U+E825 | U+3918 |
FE62 | 掆 | U+E827 | U+39CF |
FE63 | 擓 | U+E828 | U+39DF |
FE64 | 㩳 | U+E829 | U+3A73 |
FE65 | 㩳 | U+E82A | U+39D0 |
FE68 | 棡 | U+E82D | U+3B4E |
FE69 | 殨 | U+E82E | U+3C6E |
FE6A | 澾 | U+E82F | U+3CE0 |
FE6B | ⺧ | U+E830 | U+2EA7 |
FE6E | ⺪ | U+E833 | U+2EAA |
FE6F | 瞜 | U+E834 | U+4056 |
FE70 | 穇 | U+E835 | U+415F |
FE71 | ⺮ | U+E836 | U+2EAE |
FE72 | 紬 | U+E837 | U+4337 |
FE73 | ⺳ | U+E838 | U+2EB3 |
FE74 | ⺶ | U+E839 | U+2EB6 |
FE75 | ⺷ | U+E83A | U+2EB7 |
FE77 | 䎱 | U+E83C | U+43B1 |
FE78 | 䎱 | U+E83D | U+43AC |
FE79 | ⺻ | U+E83E | U+2EBB |
FE7A | 膞 | U+E83F | U+43DD |
FE7B | 藭 | U+E840 | U+44D6 |
FE7C | 䙡 | U+E841 | U+4661 |
FE7D | 䙡 | U+E842 | U+464C |
FE80 | 訢 | U+E844 | U+4723 |
FE81 | 讌 | U+E845 | U+4729 |
FE82 | 䝼 | U+E846 | U+477C |
FE83 | 䝼 | U+E847 | U+478D |
FE84 | ⻊ | U+E848 | U+2ECA |
FE85 | 䥇 | U+E849 | U+4947 |
FE86 | 釾 | U+E84A | U+497A |
FE87 | 鏺 | U+E84B | U+497D |
FE88 | 䥇 | U+E84C | U+4982 |
FE89 | 鐯 | U+E84D | U+4983 |
FE8A | 鐥 | U+E84E | U+4985 |
FE8B | 钁 | U+E84F | U+4986 |
FE8C | 䦟 | U+E850 | U+499F |
FE8D | 䦛 | U+E851 | U+499B |
FE8E | 䦟 | U+E852 | U+49B7 |
FE8F | 䦛 | U+E853 | U+49B6 |
FE92 | 䱷 | U+E856 | U+4CA3 |
FE93 | 鮣 | U+E857 | U+4C9F |
FE94 | 鰆 | U+E858 | U+4CA0 |
FE95 | 鰌 | U+E859 | U+4CA1 |
FE96 | 䱷 | U+E85A | U+4C77 |
FE97 | 鰧 | U+E85B | U+4CA2 |
FE98 | 鳾 | U+E85C | U+4D13 |
FE99 | 鵁 | U+E85D | U+4D14 |
FE9A | 鴷 | U+E85E | U+4D15 |
FE9B | 鶄 | U+E85F | U+4D16 |
FE9C | 鶪 | U+E860 | U+4D17 |
FE9D | 鷈 | U+E861 | U+4D18 |
FE9E | 鷿 | U+E862 | U+4D19 |
FE9F | 龑 | U+E863 | U+4DAE |
GB 18030-2005與GB 18030-2000的分別
- 夾附中日韓統一表意文字擴展B區漢字、朝鮮文、蒙古文(包括滿文、託忒文、錫伯文、阿禮嘎禮文)、德宏傣文、藏文、維吾爾文/哈薩克文/柯爾克茲文,和彝文的字形表。 韓文包含 3,376 個韓字加 69 個字母加 51 個兼容字母、 蒙古文包含 149 字、傣文包含 35 字、藏文包含 193 字、 維吾爾文包含 49 字加 153 個字母表達形式、 彝文包含 1,215 字(不包含 U+A4A2, U+A4A3, U+A4B4, U+A4C1, U+A4C5)。
- GB 18030-2000 沒有把 ḿ 對應至 Unicode。在 GB 18030-2005 終於獲訂正。見官方文件附錄E-表E.2。
GB碼位 | 字符 | GB 18030-2000 對應的造字區 | GB 18030-2005 對應的Unicode |
---|---|---|---|
A8BC | ḿ | U+E7C7 | U+1E3F |
GB 18030 仍未訂正對應的字符
- 在 GB 18030-2000 推出時,因未有中日韓統一表意文字擴展B區,以下字符被對應到造字區。 而在 GB 18030-2005 推出時,儘管 Unicode 已收錄了擴展B區, 但在 GB 18030-2005 標準中,以下字符仍然對應到造字區,未有作出修改。 見 WG2 N2773 文件。 結果,GB 18030-2005 重複收錄了以下 6 字兩次。
GB碼位 | 字符 | GB 18030 對應的造字區 | Unicode ≥3.1 | 因此而重複的GB碼位 |
---|---|---|---|---|
FE51 | 𠂇 | U+E816 | U+20087 | 95329031 |
FE52 | 𠂉 | U+E817 | U+20089 | 95329033 |
FE53 | 𠃌 | U+E818 | U+200CC | 95329730 |
FE6C | 𡗗 | U+E831 | U+215D7 | 9536B937 |
FE76 | 𢦏 | U+E83B | U+2298F | 9630BA35 |
FE91 | 𤇾 | U+E855 | U+241FE | 9635B630 |
- 以下字符在 GB 18030-2000 時已有,而當時 Unicode 仍未有以下字符。 儘管 Unicode 在 4.1 版本,已經把以下字符悉數加入,但在 GB 18030-2005 標準中,以下字符仍然對應到造字區。 見 WG2 N2773 文件。
GB碼位 | 字符 | GB 18030 對應的造字區 | Unicode ≥4.1 |
---|---|---|---|
A6D9 | ︐ | U+E78D | U+FE10 |
A6DA | ︒ | U+E78E | U+FE12 |
A6DB | ︑ | U+E78F | U+FE11 |
A6DC | ︓ | U+E790 | U+FE13 |
A6DD | ︔ | U+E791 | U+FE14 |
A6DE | ︕ | U+E792 | U+FE15 |
A6DF | ︖ | U+E793 | U+FE16 |
A6EC | ︗ | U+E794 | U+FE17 |
A6ED | ︘ | U+E795 | U+FE18 |
A6F3 | ︙ | U+E796 | U+FE19 |
FE59 | 龴 | U+E81E | U+9FB4 |
FE61 | 龵 | U+E826 | U+9FB5 |
FE66 | 龶 | U+E82B | U+9FB6 |
FE67 | 龷 | U+E82C | U+9FB7 |
FE6D | 龸 | U+E832 | U+9FB8 |
FE7E | 龹 | U+E843 | U+9FB9 |
FE90 | 龺 | U+E854 | U+9FBA |
FEA0 | 龻 | U+E864 | U+9FBB |