[Python] 踩坑記錄

[Python] 踩坑記錄

主要記錄一些常見到error但不記得怎麼解決的問題。

1. 中文編碼

python可用的中文編碼有這些’big5’、‘big5hkscs’、‘cp950’、‘gb2312’‘gbk’‘gb18030’、‘hz’、‘iso2022_jp_2’,加粗幾個是常用的,但是其他也是可以用的,中文編碼出現問題的時候(尤其是存數據和讀取數據時)換一個說不定就好了。

  • 舉個🌰
df.to_csv('./df.csv', encoding='gbk')

出現error:
‘gbk’ codec can’t encode character ‘\xa0’ in position 1: illegal multibyte sequence

# encoding改成gb18030就闊以了
df.to_csv('./df.csv', encoding='gb18030')

2. 重設dataframe的index

# 設成連續的數字
df.index = range(len(df))

# 以某一列爲index
df.set_index('col_name', inplace = True)

3. 爬html前先看看有沒有json

在爬html網頁的時候,先不急着開始爬,到網絡裏篩選出XHR,說不定你要的東西就在某個json格式的文件裏,豈不美哉,有時甚至可以繞開登錄的坎。
找json

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章