urllib和urllib3

原創

2020-02-21 12:19

urllib和urllib3

一、urllib庫

1.1 urllib庫所包含的模塊

1.2 urlopen方法

1.3 添加請求頭

1.4 cookie操作

1.5 代理設置

1.6 response對象

1.7 urllib.parse模塊

1.8 urllib.error模塊

1.9 robotparse模塊

二、urllib3庫

2.1 簡介

2.2 構造請求

2.3 response屬性

2.4 json數據解析

2.5 大數據處理

2.6 代理

2.7 request參數

三、爬蟲開發的基本流程

四、練習

import urllib3
import re
import os
# 構造請求
http = urllib3.PoolManager()
url_list = ["http://www.weimeitupian.com", "http://www.weimeitupian.com/page/2", "http://www.weimeitupian.com/page/3"]
for i in range(len(url_list)):
    res = http.request("GET", url_list[i])  # 循環發送請求
    res_str = res.data.decode()  # 將響應的數據解碼
    print("正在下載第{}頁的數據".format(i+1))
    # 匹配創建文件夾時所需要的文本並篩選出所需要的文本
    dir_name = re.findall(r'title="(.+?)"', res_str, re.S)[9:-10]
    # 匹配每個圖片的url並篩選出所需要的url
    img_url = re.findall(r'<!--<img src="(.+?)"', res_str, re.S)[:45]
    # print(dir_name, len(dir_name))
    # print(img_url, len(img_url))
    for i in range(len(img_url)):
        try:
            res_img = http.request("GET", img_url[i])
            # res_img = http.request("GET", img_url[i], preload_content=False)  # 分段存儲必須要帶上preload_content=False
        except Exception as e:
            print("url出錯！", e)
            res_img = http.request("GET", "http://www.weimeitupian.com"+img_url[i])
            # res_img = http.request("GET", "http://www.weimeitupian.com" + img_url[i], preload_content=False)
        # 拼接一個路徑，用來創建文件夾
        dir_path = os.path.join(r"D:\Python學院學習環境\pachong\img", dir_name[i])
        # 判斷該路徑是否存在，不存在則創建
        if not os.path.exists(dir_path):
            os.mkdir(dir_path)
        # 拼接一個文件路徑
        file_path = os.path.join(dir_path, "{}".format(img_url[i].split("/")[-1]))
        with open(file_path, "wb")as f:
            print("正在下載第{}條數據".format(i+1))
            f.write(res_img.data)
            # for chunk in res_img.stream(32):  # 分段寫入，每次寫入32個字節
            #     f.write(chunk)

效果圖

魑魅～魍魎

發佈了96 篇原創文章 · 獲贊 36 · 訪問量 6196

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

urllib和urllib3

urllib和urllib3

一、urllib庫

1.1 urllib庫所包含的模塊

1.2 urlopen方法

1.3 添加請求頭

1.4 cookie操作

1.5 代理設置

1.6 response對象

1.7 urllib.parse模塊

1.8 urllib.error模塊

1.9 robotparse模塊

二、urllib3庫

2.1 簡介

2.2 構造請求

2.3 response屬性

2.4 json數據解析

2.5 大數據處理

2.6 代理

2.7 request參數

三、爬蟲開發的基本流程

四、練習

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

一個.NET開源的功能豐富、靈活易用的 Windows 窗口增強神器

django上下文處理器

會話技術之session

django簡單表單

auth系統

url配置及模板渲染

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結