php轉換字符編碼爲utf-8 - mb_detect_encoding

mb_detect_encoding — 檢測字符的編碼

string mb_detect_encoding ( string $str [,mixed $encoding_list = mb_detect_order() [,bool $strict = false ]])

這個函數有三個參數分別是:

1.str:待檢查的字符串

2.encoding_list:encoding_list 是一個字符編碼列表,編碼順序可以由數組或者逗號分隔的列表字符串指定.

如果省略了 encoding_list 將會使用 detect_order。      

3.strict:strict 指定了是否嚴格地檢測編碼,默認是 FALSE.

下面舉個例子,代碼如下:

$encode = mb_detect_encoding($keytitle,array('ASCII','GB2312','GBK','UTF-8'));

三個參數分別是:被檢測的輸入變量,編碼方式的檢測順序(一旦爲真,後面自動忽略),strict模式對編碼檢測的順序進行調整,將最大可能性放在前面,這樣減少被錯誤轉換的機會,一般要先排gb2312,當有GBK和UTF-8時,需要將常用的排列到前面.

集成函數如下:

1.字符串轉換爲UTF-8

function strToUtf8($str){
    $encode = mb_detect_encoding($str, array("ASCII",'UTF-8',"GB2312","GBK",'BIG5'));
    if($encode == 'UTF-8'){
        return $str;
    }else{
        return mb_convert_encoding($str, 'UTF-8', $encode);
    }
}

2.文件內容轉換編碼

 

/** 
 * 檢測文件編碼 
 * @param string $file 文件路徑 
 * @return string|null 返回 編碼名 或 null 
 */ 
function detect_encoding($file) { 
    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1'); 
    $str = file_get_contents($file); 
    foreach ($list as $item) { 
        $tmp = mb_convert_encoding($str, $item, $item); 
        if (md5($tmp) == md5($str)) { 
            return $item; 
        } 
    } 
    return null; 
} 
 
/** 
 * 自動解析編碼讀入文件 
 * @param string $file 文件路徑 
 * @param string $charset 讀取編碼 
 * @return string 返回讀取內容 
 */ 
function auto_read($file, $charset='UTF-8') { 
    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1'); 
    $str = file_get_contents($file); 
    foreach ($list as $item) { 
        $tmp = mb_convert_encoding($str, $item, $item); 
        if (md5($tmp) == md5($str)) { 
            return mb_convert_encoding($str, $charset, $item); 
        } 
    } 
    return ""; 
} 

參考:

1. php轉換字符編碼爲utf-8

2. php中mb_detect_encoding檢測文件編碼方法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章