第一步:登錄百度圖片官網,截圖如下所示:
注意點一:開頭必須是https(如上圖所示,出現鎖的標誌),不能是http,否則後期下載圖片文件會出錯
第二步:輸入關鍵字,頁面加載出來之後,按F12進入開發者模式,由於百度圖片ajax動態加載,點擊network選項卡,重新刷新頁面,查看XHR數據,截圖如下所示:
第三步:分析多個XHR,得出規律,每一個頁面所請求的url所攜帶的參數只有pn,rn,gsm(不用管)是不一樣的,其中pn代表當前是第幾頁,rn代表一頁有幾條數據,截圖如下所示:
第四步:上一步已經分析完url的規律,接下來我們來尋找圖片的藏身之處,點開任意一個XHR,從0到29,一共三十條數據,圖片的信息存儲在每一個字典中,其中’thumbURL’中存儲的就是地址,截圖如下所示:
第五步:上一步已經分析完圖片儲存的地方,接下來我們來編寫代碼,代碼如下所示:
import requests
import os
class Image():
url = 'https://image.baidu.com/search/acjson'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'
}
varlist = []
dir = './images'
params = {}
def __init__(self):
global page_num,keywords
page_num = int(input('請輸入要抓取的頁數:\n'))
keywords = input('請輸入關鍵字:\n')
if self.catch_page():
self.writeData()
else:
print('抓取頁面失敗')
def catch_page(self):
for i in range(0,page_num * 30,30):
self.params = {
'tn': 'resultjson_com',
'ipn': 'rj',
'ct': '201326592',
'is': '',
'fp': 'result',
'queryWord': keywords,
'cl': '2',
'lm': '-1',
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': '',
'st': '-1',
'z': '',
'ic': '0',
'hd': '',
'latest': '',
'copyright': '',
'word': keywords,
's': '',
'se': '',
'tab': '',
'width': '',
'height': '',
'face': '0',
'istype': '2',
'qc': '',
'nc': '1',
'fr': '',
'expermode': '',
'force': '',
'cg': 'girl',
'pn': i,
'rn': '30',
'gsm': '',
'1584010126096': ''
}
res = requests.get(url = self.url,params = self.params).json()['data']
for j in range(0,30):
self.varlist.append(res[j]['thumbURL'])
if self.varlist != None:
return True
return False
def writeData(self):
# 判讀是否存在文件,不存在則創建
if not os.path.exists(self.dir):
os.mkdir(self.dir)
for i in range(0,page_num * 30):
print(f'正在下載第{i}條數據')
images = requests.get(url = self.varlist[i])
open(f'./images/{i}.jpg','wb').write(images.content)
if __name__ == '__main__':
Image()