python爬蟲初學的小記錄

self.headers = {“User-Agent”: “Mozilla/5.0”}
對headers的解釋:
User Agent中文名爲用戶代理,是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。它是一個特殊字符串頭,是一種向訪問網站提供你所使用的瀏覽器類型及版本、操作系統及版本、瀏覽器內核、等信息的標識。通過這個標 識,用戶所訪問的網站可以顯示不同的排版從而爲用戶提供更好的體驗或者進行信息統計;例如用手機訪問谷歌和電腦訪問是不一樣的,這些是谷歌根據訪問者的 UA來判斷的。UA可以進行僞裝。
瀏覽器的UA字串的標準格式:瀏覽器標識 (操作系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識版本信息。但各個瀏覽器有所不同。

requests庫中的get()方法:
https://blog.csdn.net/k_koris/article/details/82950654

requests的content與text的區別:
requests對象的get和post方法都會返回一個Response對象,這個對象裏面存的是服務器返回的所有信息,包括響應頭,響應狀態碼等。其中返回的網頁部分會存在.content和.text兩個對象中。
兩者區別在於,content中間存的是字節碼,而text中存的是Beautifulsoup根據猜測的編碼方式將content內容編碼成字符串。
使用text可能會出現中文亂碼的情況,這時需要用.content.decode(‘utf-8’),中文常用utf-8和GBK,GB2312等。這樣可以手工選擇文字編碼方式。

以請求返回的二進制數據創建一張圖片,你可以使用如下代碼:

>>> from PIL import Image
>>> from io import BytesIO
>>> i = Image.open(BytesIO(r.content))

re正則表達式的相關函數及機制:
https://blog.csdn.net/xiaochendefendoushi/article/details/81335597

re中的findall將符合正則模式對象的所有數據封裝成一個列表list

import re 
第一種
kk = re.compile(r'\d+') 
kk.findall('one1two2three3four4') 
#[1,2,3,4]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章