[Python] 踩坑記錄
主要記錄一些常見到error但不記得怎麼解決的問題。
1. 中文編碼
python可用的中文編碼有這些’big5’、‘big5hkscs’、‘cp950’、‘gb2312’、‘gbk’、‘gb18030’、‘hz’、‘iso2022_jp_2’,加粗幾個是常用的,但是其他也是可以用的,中文編碼出現問題的時候(尤其是存數據和讀取數據時)換一個說不定就好了。
- 舉個🌰
df.to_csv('./df.csv', encoding='gbk')
出現error:
‘gbk’ codec can’t encode character ‘\xa0’ in position 1: illegal multibyte sequence
# encoding改成gb18030就闊以了
df.to_csv('./df.csv', encoding='gb18030')
2. 重設dataframe的index
# 設成連續的數字
df.index = range(len(df))
# 以某一列爲index
df.set_index('col_name', inplace = True)
3. 爬html前先看看有沒有json
在爬html網頁的時候,先不急着開始爬,到網絡
裏篩選出XHR
,說不定你要的東西就在某個json格式的文件裏,豈不美哉,有時甚至可以繞開登錄的坎。