PHP字符串長度計算 - strlen()函數

strlen()函數和mb_strlen()函數

在PHP中,函數strlen()返回字符串的長度。函數原型如下:

  1. int strlen(string string_input); 

參數string_input爲要處理的字符串。

strlen()函數返回字符串所佔的字節長度,一個英文字母、數字、各種符號均佔一個字節,它們的長度均爲1。一箇中午字符佔兩個字節,所以一箇中午字符的長度是2。例如

  1. <?php  
  2.     echo strlen("www.sunchis.com");  
  3.     echo strlen("三知開發網");  
  4. ?> 

“echo strlen("www.sunchis.com");”的運行結果:15

“echo strlen("三知開發網");”的運行結果:15

 

這裏有一個疑問,一箇中文字符不是佔2個字節嗎?“三知開發網”,明明是五個漢字,運行的結果怎麼會是15?

原因出在這裏:strlen()計算時,對於一個UTF-8的中文字符,會把它當做長度爲3來處理。當出現中英文混排的情況下,怎麼準確的計算字符串的長度呢?這裏,得引入另外一個函數mb_strlen()。mb_strlen()函數的用法與strlen()幾乎一摸一樣,只是多了一個指定字符集編碼的參數。函數原型爲:

  1. int mb_strlen(string string_input, string encode); 

PHP內置的字符串長度函數strlen無法正確處理中文字符串,它得到的只是字符串所佔的字節數。對於GB2312的中文編碼,strlen得到的值是漢字個數的2倍,而對於UTF-8編碼的中文,就是3倍的差異了(在UTF-8編碼下,一個漢字佔3個字節)。 因此,下面的代碼能準確計算出中文字符串的長度:

  1. <?php  
  2.     $str = "三知sunchis開發網";  
  3.     echo strlen($str)."<br>";               //結果:22  
  4.     echo mb_strlen($str,"UTF8")."<br>";     //結果:12  
  5.     $strlen = (strlen($str)+mb_strlen($str,"UTF8"))/2;  
  6.     echo $strlen;                           //結果:17  
  7. ?> 

原理分析:

  • strlen()計算時,對待UTF-8的中文字符長度是3,所以“三知sunchis開發網”的長度爲5×3+7×1=22
  • 在mb_strlen計算時,選定內碼爲UTF8,則會將一箇中文字符當作長度1來計算,所以“三知sunchis開發網”長度爲5×1+7×1=12

剩下的就是純數學問題了,在此就不囉嗦了……

 

注意:對於mb_strlen($str,'UTF-8'),如果省略第二個參數,則會使用PHP的內部編碼。內部編碼可以通過mb_internal_encoding()函數得到。需要注意的是,mb_strlen並不是PHP核心函數,使用前需要確保在php.ini中加載了php_mbstring.dll,即確保“extension=php_mbstring.dll”這一行存在並且沒有被註釋掉,否則會出現未定義函數的問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章