排序規則基本概念和誤區

原創

2020-02-20 17:17

前言

昨天在論壇裏面遇到一個比較特殊的場景。他的公司做的是海外的項目，中英再加一個當地語言，要兼容三種文字啊.
那有沒有什麼字符集或排序規則，能兼容所有文字的？對於海外項目很痛苦啊 .Oracle 有AL32UTF8 ，MySQL 有UTF8 ，那SQL Server 有嗎？

基本概念

ASCII編碼

在計算機發明後不久，計算機只在美國用。他們創造出了ASCII編碼，來表示：空格、標點符號、數字、大小寫字母，控制符等。可以完整的表達所有的英文。但是也只支持英文。

GBK編碼

後來隨着計算機的流行，中國人民通過對 ASCII 編碼的中文擴充改造，產生了 GB2312 編碼，可以表示6000多個常用漢字。漢字實在是太多了，包括繁體和各種字符，於是產生了 GBK 編碼，它包括了 GB2312 中的編碼，同時擴充了很多。中國是個多民族國家，各個民族幾乎都有自己獨立的語言系統，爲了表示那些字符，繼續把 GBK 編碼擴充爲 GB18030 編碼。

每個國家都像中國一樣，把自己的語言編碼，於是出現了各種各樣的編碼，如果你不安裝相應的編碼，就無法解釋相應編碼想表達的內容。

終於，有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 UNICODE ，這種編碼非常大，大到可以容納世界上任何一個文字和標誌。所以只要電腦上有 UNICODE 這種編碼系統，無論是全球哪種文字，只需要保存文件的時候，保存成 UNICODE 編碼就可以被其他電腦正常解釋。

UTF-8 AND UTF-16

UNICODE 在網絡傳輸中，出現了兩個標準 UTF-8 和 UTF-16，分別每次傳輸 8個位（2個字節）和 16個位（4個字節）。於是就會有人產生疑問，UTF-8 既然能保存那麼多文字、符號，爲什麼國內還有這麼多使用 GBK 等編碼的人？因爲 UTF-8 等編碼體積比較大，佔電腦空間比較多，如果面向的使用人羣絕大部分都是中國人，用 GBK 等編碼也可以。

總的來說：

Unicode 是「字符集」
UTF-8 是「編碼規則」

其中：

字符集：爲每一個「字符」分配一個唯一的 ID（學名爲碼位 / 碼點 / Code Point）
編碼規則：將「碼位」轉換爲字節序列的規則（編碼/解碼可以理解爲加密/解密的過程）

排序規則

比如我們常用的：Chinese_PRC_CI_AS ，前面部分是Chinese_PRC 這個部分表示支持的中國大陸的字符集。但是這裏有個特別需要注意的事項，劃重點，在很多博客上面會有這樣的描述：

大陸簡體字UNICODE的排序規則

這裏有很大的歧義。並不是說這個排序規則對所有字符都是有的Unicode。這樣說並不準確。

排序規則的後半部份即後綴含義：
　　_BIN 二進制排序
　　_CI(CS) 是否區分大小寫，CI不區分，CS區分(case-insensitive/case-sensitive)
　　_AI(AS) 是否區分重音，AI不區分，AS區分(accent-insensitive/accent-sensitive)
　　_KI(KS) 是否區分假名類型,KI不區分，KS區分(kanatype-insensitive/kanatype-sensitive)
　　_WI(WS) 是否區分寬度 WI不區分，WS區分(width-insensitive/width-sensitive)　
區分大小寫:如果想讓比較將大寫字母和小寫字母視爲不等，請選擇該選項。
區分重音:如果想讓比較將重音和非重音字母視爲不等，請選擇該選項。如果選擇該選項，
比較還將重音不同的字母視爲不等。
區分假名:如果想讓比較將片假名和平假名日語音節視爲不等，請選擇該選項。
區分寬度:如果想讓比較將半角字符和全角字符視爲不等，請選擇該選項

Unicode

SQL SERVER 是支持Unicode的。對應的字符類型是nchar,nvarchar.

總結

所以，SQL SERVER 沒有這樣的和ORACLE UTF-8類似的排序規則。。如果是三種文字，建議把所有的字符類型定義爲nchar,nvarchar 。

OwenZeng_DBA

發佈了76 篇原創文章 · 獲贊 101 · 訪問量 18萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

排序規則基本概念和誤區

前言

基本概念

總結

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

指定的域不存在或無法聯繫

數據庫遷移必備--遷移登錄賬戶

事務複製問題排查

數據庫參數調優--自動更新統計信息

SQL Server 招聘啓事--舊

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結