目錄
utf-8 編碼的 emoji 表情或者某些特殊字符佔用 4 個字節。utf-8 編碼的常用中文字符佔用 3 個字節。
判斷字符串中是否含有 emoji 表情
三個 PHP 內置函數:
- mb_strlen
mixed mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] )
// 返回具有 encoding 編碼的字符串 str 包含的字符數。 多字節的字符被計爲 1。
// 如果給定的 encoding 無效則返回 FALSE。
- mb_substr
string mb_substr ( string $str , int $start [, int $length = NULL [, string $encoding = mb_internal_encoding() ]] )
// 根據字符數執行一個多字節安全的 substr() 操作。 位置是從 str 的開始位置進行計數。 第一個字符的位置是 0。第二個字符的位置是 1。
// mb_substr() 函數根據 start 和 length 參數返回 str 中指定的部分。
- strlen
int strlen ( string $string )
// 返回給定的字符串 string 的長度。
函數如下:
function haveEmojiChar($str)
{
$mbLen = mb_strlen($str);
$strArr = [];
for ($i = 0; $i < $mbLen; $i++) {
$strArr[] = mb_substr($str, $i, 1, 'utf-8');
if (strlen($strArr[$i]) >= 4) {
return true;
}
}
return false;
}
移除字符串中的 emoji 表情
函數如下:
function removeEmojiChar($str)
{
$mbLen = mb_strlen($str);
$strArr = [];
for ($i = 0; $i < $mbLen; $i++) {
$mbSubstr = mb_substr($str, $i, 1, 'utf-8');
if (strlen($mbSubstr) >= 4) {
continue;
}
$strArr[] = $mbSubstr;
}
return implode('', $strArr);
}
含有 emoji 表情的字符串在 MySQL 中的儲存
- MySQL 中使用 utf8mb4 字符集。
- PHP 對字符串進行 base64 編碼,從數據庫中取出時再對字符串進行解碼。
- 直接移除字符串中的 emoji 表情(該方法簡單粗暴)