python字符編碼檢測——chardet


分類: 我的python新生 2012-04-01 15:36 21人閱讀 評論(0) 收藏 舉報
                當面對一串不知道編碼信息的字節流的時候,嘗試着確定一種編碼方式以使我們能夠讀懂其中的文本內容。類似於破解密碼。
                Firefox包含有一個自動檢測字符編碼的庫,導入到了python2,並且取綽號爲chardet模塊
                chardet運用了一種算法來檢測字符的類型
[python] view plaincopy
import chardet  
utf8_str = '我愛python'  
gbk_str = utf8_str.decode('UTF-8').encode('GBK')  
  
print utf8_str,chardet.detect(utf8_str)  
print gbk_str,chardet.detect(gbk_str)  


輸出:
[python] view plaincopy
我愛python {'confidence': 0.7525, 'encoding': 'utf-8'}  
我愛python {'confidence': 0.99, 'encoding': 'GB2312'}  
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章