c++ 中文字符

UTF-8

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16（字符用兩個字節或四個字節表示）和UTF-32（字符用四個字節表示），不過在互聯網上基本不用。重複一遍，這裏的關係是，UTF-8是Unicode的實現方式之一。

UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。

UTF-8的編碼規則很簡單，只有二條：

1）對於單字節的符號，字節的第一位設爲0，後面7位爲這個符號的unicode碼。因此對於英語字母，UTF-8編碼和ASCII碼是相同的。

2）對於n字節的符號（n>1），第一個字節的前n位都設爲1，第n+1位設爲0，後面字節的前兩位一律設爲10。剩下的沒有提及的二進制位，全部爲這個符號的unicode碼。

下表總結了編碼規則，字母x表示可用編碼的位。

Unicode符號範圍 | UTF-8編碼方式
(十六進制) | （二進制）
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟據上表，解讀UTF-8編碼非常簡單。如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符佔用多少個字節。

下面，還是以漢字"嚴"爲例，演示如何實現UTF-8編碼。

已知"嚴"的unicode是4E25（100111000100101），根據上表，可以發現4E25處在第三行的範圍內（0000 0800-0000 FFFF），因此"嚴"的UTF-8編碼需要三個字節，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然後，從"嚴"的最後一個二進制位開始，依次從後向前填入格式中的x，多出的位補0。這樣就得到了，"嚴"的UTF-8編碼是"11100100 10111000 10100101"，轉換成十六進制就是E4B8A5。

然後，用文本編輯軟件UltraEdit中的"十六進制功能"，觀察該文件的內部編碼方式。

1）ANSI：文件的編碼就是兩個字節"D1 CF"，這正是"嚴"的GB2312編碼，這也暗示GB2312是採用大頭方式存儲的。

2）Unicode：編碼是四個字節"FF FE 25 4E"，其中"FF FE"表明是小頭方式存儲，真正的編碼是4E25。

3）Unicode big endian：編碼是四個字節"FE FF 4E 25"，其中"FE FF"表明是大頭方式存儲。

4）UTF-8：編碼是六個字節"EF BB BF E4 B8 A5"，前三個字節"EF BB BF"表示這是UTF-8編碼，後三個"E4B8A5"就是"嚴"的具體編碼，它的存儲順序與編碼順序是一致的。

本地化策略集（locale）

“將 ‘a’翻譯成0x61的整數值”，“將ASCII範圍內的編碼與char的整數值對應起來”，類似這樣的規定，是特定系統和特定編譯器制定的，C/C++ 中有個特定的名詞來描述這種規定的集合：本地化策略集（locale。也有翻譯成“現場”）。而翻譯——也就是代碼轉換（codecvt）只是這個集合中的一個，C++中定義爲策略（facet。也有翻譯爲“刻面”）

C/C++ 的編譯策略

“本地化策略集”是個很好的概念，可惜在字符和字符串這個層面上，C/C++並不使用（C++的locale通常只是影響流（stream）），C/C++使用更直接簡單的策略：硬編碼。

簡單的說，字符（串）在程序文件（可執行文件，非源文件）中的表示，與在程序執行中在內存中的表示一致。

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://blog.jobbole.com/108860/

然後，用文本編輯軟件UltraEdit中的"十六進制功能"，觀察該文件的內部編碼方式。

1）ANSI：文件的編碼就是兩個字節"D1 CF"，這正是"嚴"的GB2312編碼，這也暗示GB2312是採用大頭方式存儲的。

2）Unicode：編碼是四個字節"FF FE 25 4E"，其中"FF FE"表明是小頭方式存儲，真正的編碼是4E25。

3）Unicode big endian：編碼是四個字節"FE FF 4E 25"，其中"FE FF"表明是大頭方式存儲。

4）UTF-8：編碼是六個字節"EF BB BF E4 B8 A5"，前三個字節"EF BB BF"表示這是UTF-8編碼，後三個"E4B8A5"就是"嚴"的具體編碼，它的存儲順序與編碼順序是一致的。

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

評估統計算法在銀行僞造鈔票檢測中的價值

Java ThreadPoolShutdown

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

Reproducible Research in Computational Science

視頻課堂網站

好的圖像處理網站

圖像處理與計算機視覺基礎，經典以及最近發展

計算機視覺、機器學習相關領域論文和源代碼大集合--持續更新……

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結