python的print對編碼的處理

分類： Python其他 2007-06-22 17:11 1611人閱讀評論(0) 收藏舉報

python的print會對輸出的文本做自動的編碼轉換，而文件對象的write方法就不會做，因此，當一些字符串用print輸出正常時，write到文件確不一定和print的一樣。

print轉換的目的編碼和環境變量有關，Windows XP是轉換爲gbk的。在linux下是按照環境變量來轉換的。在linux下使用locale命令就可以看到。比如我的是：

[zhaowei@papaya zhaowei]$ locale

LANG=zh_CN

LC_CTYPE="zh_CN"

LC_NUMERIC="zh_CN"

LC_TIME="zh_CN"

LC_COLLATE="zh_CN"

LC_MONETARY="zh_CN"

LC_MESSAGES="zh_CN"

LC_PAPER="zh_CN"

LC_NAME="zh_CN"

LC_ADDRESS="zh_CN"

LC_TELEPHONE="zh_CN"

LC_MEASUREMENT="zh_CN"

LC_IDENTIFICATION="zh_CN"

LC_ALL=

這個時候會認爲是gb2312的。在python中可以用locale模塊來獲得當前環境的編碼：

import locale

print locale.getdefaultlocale()

print在輸出時把字符串自動裝換爲這個編碼。看看下面，"喆"這個字是很著名的一個在gb2312中沒有的字，當把它轉換爲gb2312的時候是會出錯的。

#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases

# 現在a是unicode的
a = u'喆'

print a.encode("gb2312")

上面這段代碼會報異常，就是這個原因。但如果是直接 print a 就可以輸出來（假設你的環境變量是GBK或者GB18030或者UTF-8）。如果你的環境變量是GB2312的，那這個print一樣會報錯！所以在處理其他地方來的文本數據時，最好不要用GB2312的編碼，是中文數據，一定要用GB18030或者UTF-8!

而用文件對象的write寫unicode的數據也是會出錯的！需要做編碼轉換。

#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases

# 現在a是unicode的
a = u'喆'

f = open("aaa.txt", "w")
f.write(a)
f.close()

python的print對編碼的處理

分類： Python其他 2007-06-22 17:11 1611人閱讀評論(0) 收藏舉報

python的print對編碼的處理

python logging日誌模塊

python文件編碼

我的友情鏈接

Python Import 路徑搜索機制

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python的print對編碼的處理

分類： Python其他 2007-06-22 17:11 1611人閱讀 評論(0) 收藏 舉報

分類： Python其他 2007-06-22 17:11 1611人閱讀評論(0) 收藏舉報