python網絡爬蟲requests庫請求返回response屬性解析

python網絡爬蟲requests庫請求返回response屬性解析

首先要想使用requests庫,就得先下載這個庫,使用快捷鍵win+r輸入cmd打開後,在命令行直接輸入以下命令即可:

pip install requests

基本的get請求,用來獲取網頁的源碼的內容

import requests
url = 'http://soft.sxau.edu.cn/info/1013/1942.htm'
r = requests.get(url,timeout=200)

timeout參數用來設置請求訪問時間,可有可無

這裏的 r 便是訪問返回的response對象,接下來將對其的5個基本屬性方法來進行基本的解析

  1. .staus_code 方法
print(r.status_code)  #若訪問鏈接成功則返回200,若返回其它則表示返回失敗   
  1. .text 方法
print(r.text[:100])   #用來返回響應內容的字符串格式,返回的爲列表形式,在實際爬蟲編寫當中可以用來測試返回的網頁源代碼是否正確,若網頁源代碼量巨大可以返回指定數量的代碼來進行查看
  1. .enconding 方法
print(r.encoding)    #返回的是網頁的編碼方式,該編碼方式爲網頁頭部信息當中的編碼方式,若頭部信息中沒有規定則返回 ISO-8859-1
  1. .apparent_encoding 方法
print(r.apparent_encoding)  #返回的也是網頁的編碼方式,與.encoding不同的是,該方法返回的是從返回根據網頁內容的解析的編碼方式,更加可靠,一般爲UTF-8-SIG
  1. .context 方法
print(r.content) #返回HTTP響應的二進制形式,一般用來對爬取並保存圖片等二進制形式的信息的使用

下面是一個爬取並保存定向指定網頁圖片的簡單方法(圖片後綴爲.jpg),用到了.context方法:

#爬取並保存網頁上的一張圖片到本地當前目錄下
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1580821861516&di=5aebc72b125d7a4ec85d0c6858508579&imgtype=0&src=http%3A%2F%2Fpic2.16pic.com%2F00%2F15%2F80%2F16pic_1580467_b.jpg'
r = requests.get(url)
f_name = 'kebi.jpg'
with open(f_name,'wb') as f:
    f.write(r.content)
發佈了6 篇原創文章 · 獲贊 12 · 訪問量 3345
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章