python網絡爬蟲requests庫請求返回response屬性解析

原創

cici_vivi

2020-02-21 09:23

python網絡爬蟲requests庫請求返回response屬性解析

首先要想使用requests庫，就得先下載這個庫，使用快捷鍵win+r輸入cmd打開後，在命令行直接輸入以下命令即可：

pip install requests

基本的get請求，用來獲取網頁的源碼的內容

import requests
url = 'http://soft.sxau.edu.cn/info/1013/1942.htm'
r = requests.get(url,timeout=200)

timeout參數用來設置請求訪問時間，可有可無

這裏的 r 便是訪問返回的response對象，接下來將對其的5個基本屬性方法來進行基本的解析

.staus_code 方法

print(r.status_code)  #若訪問鏈接成功則返回200，若返回其它則表示返回失敗

.text 方法

print(r.text[:100])   #用來返回響應內容的字符串格式，返回的爲列表形式，在實際爬蟲編寫當中可以用來測試返回的網頁源代碼是否正確，若網頁源代碼量巨大可以返回指定數量的代碼來進行查看

.enconding 方法

print(r.encoding)    #返回的是網頁的編碼方式，該編碼方式爲網頁頭部信息當中的編碼方式，若頭部信息中沒有規定則返回 ISO-8859-1

.apparent_encoding 方法

print(r.apparent_encoding)  #返回的也是網頁的編碼方式，與.encoding不同的是，該方法返回的是從返回根據網頁內容的解析的編碼方式，更加可靠，一般爲UTF-8-SIG

.context 方法

print(r.content) #返回HTTP響應的二進制形式，一般用來對爬取並保存圖片等二進制形式的信息的使用

下面是一個爬取並保存定向指定網頁圖片的簡單方法（圖片後綴爲.jpg），用到了.context方法:

#爬取並保存網頁上的一張圖片到本地當前目錄下
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1580821861516&di=5aebc72b125d7a4ec85d0c6858508579&imgtype=0&src=http%3A%2F%2Fpic2.16pic.com%2F00%2F15%2F80%2F16pic_1580467_b.jpg'
r = requests.get(url)
f_name = 'kebi.jpg'
with open(f_name,'wb') as f:
    f.write(r.content)

cici_vivi

發佈了6 篇原創文章 · 獲贊 12 · 訪問量 3345

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python網絡爬蟲requests庫請求返回response屬性解析

python網絡爬蟲requests庫請求返回response屬性解析

基本的get請求，用來獲取網頁的源碼的內容

Python多線程爬蟲—批量爬取豆瓣電影動態加載的電影信息（小白詳細說明自己對於多線程瞭解）

Python幫你玩轉Excel文檔之xlwt模塊創建Excel文檔（基本操作）

（2020年）解決報錯：SyntaxError: Non-UTF-8 code starting with '\xe6' in file

Python幫你玩轉Excel文檔之xlrd模塊的基本詳細操作

Python—Queue模塊基本使用方法詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結