在寫爬蟲的時候,有時候會遇到非utf-8的網頁,可能會造成中文亂碼問題,比如說遇到的是gb2312的編碼。直接打印中文就會變成亂碼
1.查看網頁編碼
document.characterSet
2.正確解碼
網頁使用的是gb2312編碼
str = requests.get("https://www.xxx.com")
# data = str.content.decode('utf-8') 指定編碼
data = str.text.encode('latin1').decode('gbk')