python爬蟲之爬取百度圖片(圖文並排,炒雞詳細!!!)

B站視頻講解

第一步:登錄百度圖片官網,截圖如下所示:

在這裏插入圖片描述
注意點一:開頭必須是https(如上圖所示,出現鎖的標誌),不能是http,否則後期下載圖片文件會出錯

第二步:輸入關鍵字,頁面加載出來之後,按F12進入開發者模式,由於百度圖片ajax動態加載,點擊network選項卡,重新刷新頁面,查看XHR數據,截圖如下所示:

在這裏插入圖片描述

第三步:分析多個XHR,得出規律,每一個頁面所請求的url所攜帶的參數只有pn,rn,gsm(不用管)是不一樣的,其中pn代表當前是第幾頁,rn代表一頁有幾條數據,截圖如下所示:

在這裏插入圖片描述
在這裏插入圖片描述

第四步:上一步已經分析完url的規律,接下來我們來尋找圖片的藏身之處,點開任意一個XHR,從0到29,一共三十條數據,圖片的信息存儲在每一個字典中,其中’thumbURL’中存儲的就是地址,截圖如下所示:

在這裏插入圖片描述
在這裏插入圖片描述

第五步:上一步已經分析完圖片儲存的地方,接下來我們來編寫代碼,代碼如下所示:

import requests
import os

class Image():
    url = 'https://image.baidu.com/search/acjson'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'
    }
    varlist = []
    dir = './images'
    params = {}

    def __init__(self):
        global page_num,keywords
        page_num = int(input('請輸入要抓取的頁數:\n'))
        keywords = input('請輸入關鍵字:\n')
        if self.catch_page():
            self.writeData()
        else:
            print('抓取頁面失敗')

    def catch_page(self):
        for i in range(0,page_num * 30,30):
            self.params = {
                'tn': 'resultjson_com',
                'ipn': 'rj',
                'ct': '201326592',
                'is': '',
                'fp': 'result',
                'queryWord': keywords,
                'cl': '2',
                'lm': '-1',
                'ie': 'utf-8',
                'oe': 'utf-8',
                'adpicid': '',
                'st': '-1',
                'z': '',
                'ic': '0',
                'hd': '',
                'latest': '',
                'copyright': '',
                'word': keywords,
                's': '',
                'se': '',
                'tab': '',
                'width': '',
                'height': '',
                'face': '0',
                'istype': '2',
                'qc': '',
                'nc': '1',
                'fr': '',
                'expermode': '',
                'force': '',
                'cg': 'girl',
                'pn': i,
                'rn': '30',
                'gsm': '',
                '1584010126096': ''
            }
            res = requests.get(url = self.url,params = self.params).json()['data']
            for j in range(0,30):
                self.varlist.append(res[j]['thumbURL'])
        if self.varlist != None:
            return True
        return False

    def writeData(self):
        # 判讀是否存在文件,不存在則創建
        if not os.path.exists(self.dir):
            os.mkdir(self.dir)

        for i in range(0,page_num * 30):
            print(f'正在下載第{i}條數據')
            images = requests.get(url = self.varlist[i])
            open(f'./images/{i}.jpg','wb').write(images.content)

if __name__ == '__main__':
    Image()

第六步:完結撒花

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章