C++ 過濾出字符串的中文（GBK，UTF-8）

原創

優惠券活動

2019-07-28 13:01

C++ 過濾出字符串的中文（GBK，UTF-8）
最近在處理遊戲敏感詞之類的東西，爲了加強屏蔽處理，所以需要過濾掉字符串中的除漢字之外的是其他東西如數字，符號，英文字母等。

首先我查閱資料並寫了個函數：

示例：返回輸入字符串中漢字的個數：

複製代碼
std::string StrWithOutSymbol(const std::string &source)
{

string sourceWithOutSymbol;

int i = 0;
while (source[i] != 0)
{
    if (source[i] & 0x80 )
    {
        sourceWithOutSymbol += source[i];
        sourceWithOutSymbol += source[i + 1];
        i += 2;
    else
    {
        i ++;
    }
}
return

　　sourceWithOutSymbol;
}
複製代碼
這個函數的原理是ord($str)&0x80來判斷漢字
80對應的二進制代碼爲1000 0000,最高位爲一,代表漢字漢字編碼格式通稱爲10格式一個漢字佔2字節,但只代表一個字符

"Windows中，中文簡體字符集的編碼是同時用1個字節和2個字節來表示的。當高位是0x00～0x7f時，爲一個字節，高位爲0x80以上時用2個字節表示"

當你發現一個字節的內容大於0x7f,那它肯定是個(跟另外一個字節拼湊成一個)漢字,如何判斷肯定大於0x7f呢?
0x7f(1111111)後面一個數就是0x80(10000000),所以想要大於0x7f，這個字節的最高位都肯定是1,我們只需要判斷這個最高位是否爲1就行了。

判斷方法:
位與(相同的位都是1的才爲1，否則爲0):
如:要判斷一個數的第三位是否是1，只要跟4(100)位與,判斷一個數的第2位是否爲1就跟2(10)位與.
同理判斷第八位是否爲1只要跟(10000000)也就是0x80位與了.

這裏爲什麼不用>0x7f？php可能還行，但在其他強類型語言裏面，1個字節的最高位用來標示負數，一個負數肯定不可能大於0x7f(最大的整數)

再舉個例子:
a的assic碼是97(1100001)
A的assic碼是65(1000001)

b的assic碼是98(1100010)
B的assic碼是66(1000010)

發現一個規律:一個a-z的字母,只要是小寫字母，第六位肯定是1，我們可以用這個來判斷大小寫:
這時候只要跟用以個字母跟0x20(100000)來位與判斷:
if(ord($a)&0x20){

    //大寫

}

如何把所有字母改成大寫?第六位的1改成0就行了:
$a='a';
$a = chr(ord($a)&(~0x20));
echo $a;

然後我信心滿滿的吧這個函數加入到項目中去，點擊運行，輸入中文進行檢查，當！項目報錯了？？？？數組越界？？？？

這是爲什麼，我又定位到報錯的地方，發現我使用的cocos-lua，在向c++傳遞字符串的時候傳進來的字符串是以UTF-8來進行編碼的，我又去找UIF-8的編碼規則發現

UTF-8編碼規則：如果只有一個字節則其最高二進制位爲0；如果是多字節，其第一個字節從最高位開始，連續的二進制位值爲1的個數決定了其編碼的字節數，其餘各字節均以10開頭。UTF-8轉換表表示如下：

而我之前的是按照GBK編碼進行操作的，GBK每個中文字符只佔兩個字節，而utf-8的話中文可能佔3個字節，四個字節，甚至是五個六個，所以用剛纔那樣的函數就會有越界的情況發生，所以對用UTF-8進行編碼的字符串，就需要進行另外的處理，所以我寫了一個新函數：

對UTF-8編碼的字符串進行中文篩選的函數：

複製代碼
std::string censorStrWithOutSymbol(const std::string &source)
{

string sourceWithOutSymbol;

int i = 0;
while (source[i] != 0)
{
    if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
    {
        int byteCount = 0;
        if (source[i] & 0x10)
        {
            byteCount = 4;
        }
        else
        {
            byteCount = 3;
        }
        for (int a = 0; a < byteCount; a++)
        {
            sourceWithOutSymbol += source[i];
            i++;
        }
    }
    else if (source[i] & 0x80 && source[i] & 0x40)
    {
        i += 2;
    }
    else
    {
        i += 1;
    }
}
return sourceWithOutSymbol;

}
複製代碼
點擊運行，成功了！舒服。
原文地址https://www.cnblogs.com/kpxy/p/11256791.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

C++ 過濾出字符串的中文（GBK，UTF-8）

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Java多線程之深入解析ThreadLocal和ThreadLocalMap

.NET Core Session源碼探究

Python 爲什麼沒有 main 函數？爲什麼我不推薦寫 main 函數？

【asp.net core 系列】3 視圖以及視圖與控制器

Docker虛擬機配置手札（centos）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結