Python crawler（一）：urllib的三種下載網頁方法

原創

2020-06-28 08:59

原教程來源於imooc

鏈接地址：http://www.imooc.com/learn/563

urllib的三種下載網頁方法

1、測試代碼

# urlopen的參數可以是request對象和url
from urllib import request
import http.cookiejar

url = 'http://www.baidu.com'  # 指定url爲百度首頁

print('第一種方法:')

response1 = request.urlopen(url)  # 用urllib.request的urlopen方法，以url作爲參數下載網頁

print(response1.getcode())
print(len(response1.read()))

print('第二種方法')

req = request.Request(url)  # 創建request對象添加特殊處理，url作爲參數
req.add_header('user-agent', 'Mozilla/5.0')  # 把爬蟲僞裝成瀏覽器
response2 = request.urlopen(req)  # urlopen方法的參數改爲request

print(response2.getcode())
print(len(response2.read()))


print('第三種方法')

cj = http.cookiejar.CookieJar()  # 創建cookie容器
opener = request.build_opener(request.HTTPCookieProcessor(cj))  # 創建opener,以cj爲容器
request.install_opener(opener)  # 爲request安裝opener，使request具有cookie處理能力
response3 = request.urlopen(url)

print(response3.getcode())
print(cj)  # 打印cookie容器內容
print(response3.read())

2、測試結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyppeteer初次運行需要下載Chrome無法下載或者下載慢的解決方案

目前網上最多的其實都是自己手動下載，這裏說一下最簡單的、最方便的解決方案。這裏進行替換就好了，這裏是不需要修改源碼的。只要在我們引用之前設置下環境變量就好了。 import os DEFAULT_DOWNLOAD_HOST

2020-07-08 05:42:09

Python3 012：100到200的素數

題目判斷101-200之間有多少個素數，並輸出所有素數。程序分析判斷素數的方法：用一個數分別去除2到sqrt(這個數)，如果能被整除，則表明此數不是素數，反之是素數。用else可以進一步簡化代碼. import math

2020-07-08 05:45:09

Python3 個稅計算

題目企業發放的獎金根據利潤提成。利潤(I)低於或等於10萬元時，獎金可提10%；利潤高於10萬元，低於20萬元時，低於10萬元的部分按10%提成，高於10萬元的部分，可提成7.5%；20萬到40萬之間時，高於20萬元的部分，可提

2020-07-08 05:45:09

Python3 階乘求和

題目求1+2!+3!+…+20!的和。程序分析 1+2!+3!+…+20!=1+2(1+3(1+4(…20(1)))) res=1 for i in range(20,1,-1): res=i*res+1 print(

2020-07-08 05:45:09

Python3 磁盤讀寫

實例099：磁盤讀寫題目有兩個磁盤文件A和B,各存放一行字母,要求把這兩個文件中的信息合併(按字母順序排列), 輸出到一個新文件C中。程序分析無。 if __name__ == '__main__': import

2020-07-08 05:45:09

Python3 完全平方數

題目一個整數，它加上100後是一個完全平方數，再加上168又是一個完全平方數，請問該數是多少？程序分析因爲168對於指數爆炸來說實在太小了，所以可以直接省略數學分析，用最樸素的方法來獲取上限: n=0 while (n+1)

2020-07-08 05:45:09

Python3 這天第幾天

題目輸入某年某月某日，判斷這一天是這一年的第幾天？程序分析特殊情況，閏年時需考慮二月多加一天： def isLeapYear(y): return (y%400==0 or (y%4==0 and y%100!=0)

2020-07-08 05:45:09

Python3 copy

題目將一個列表的數據複製到另一個列表中。程序分析使用列表[:]，拿不準可以調用copy模塊。 import copy a = [1,2,3,4,['a','b']] b = a # 賦值 c = a[:] #

2020-07-08 05:45:09

Python3 數字組合

題目有四個數字：1、2、3、4，能組成多少個互不相同且無重複數字的三位數？各是多少？程序分析遍歷全部可能，把有重複的剃掉。 total=0 for i in range(1,5): for j in range(1,

2020-07-08 05:45:09

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

【Python成長之路】Boss直聘爬蟲第2彈：selenium找不到元素的常見問題

哈嘍大家好，我是鵬哥。今天繼續上週的主題是 —— boss直聘網站的爬蟲。 ~~~上課鈴~~~ 盜墓筆記·十年人間李常超（Lao乾媽） - 盜墓筆記·十年人間 1 寫在前面上一篇文章講的如何破解boss直聘網站的滑塊

鹏哥贼优秀

2020-07-08 06:35:40

【Python成長之路】破解Boss直聘網站滑塊驗證

哈嘍大家好，我是鵬哥。今天要記錄的內容是 —— 破解Boss直聘網站的滑塊驗證。 …… 上課鈴…… TuesdayBurak Yeter;Danelle Sandoval - Tuesday 1 寫在前面最近

鹏哥贼优秀

2020-07-08 06:35:38

4.8實驗記錄（爬取so問答）

只爬取指定的類的div from bs4 import BeautifulSoup soup=BeautifulSoup(h,'html.parser') a=soup.find_all('div',class_="post-te

2020-07-08 06:12:59

24小時熱門文章

最新文章

最新評論文章