有些網站的反爬機制極強,需要更真實的去模擬人訪問網站的動作纔可以爬取信息,這時就需要selenium
一、selenium是什麼
selenium
是什麼呢?它是一個強大的Python庫。
它可以做什麼呢?它可以用幾行代碼,控制瀏覽器,做出自動打開、輸入、點擊等操作,就像是有一個真正的用戶在操作一樣。
二、驅動下載
首先需要安裝瀏覽器驅動,下載驅動後將exe文件複製到python根目錄下(虛擬環境根目錄也可以)
ChromeDriver與Chrome版本對應參照表及ChromeDriver下載鏈接
使用pip安裝selenium
三、爬取信息
# 本地Chrome瀏覽器設置方法
from selenium import webdriver # 從selenium庫中調用webdriver模塊
import time # 調用time模塊
driver = webdriver.Chrome() # 設置引擎爲Chrome,真實地打開一個Chrome瀏覽器
driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 訪問頁面
time.sleep(2) # 暫停兩秒,等待瀏覽器緩衝
teacher = driver.find_element_by_id('teacher') # 找到【請輸入你喜歡的老師】下面的輸入框位置
teacher.send_keys('必須是吳楓呀') # 輸入文字
assistant = driver.find_element_by_name('assistant') # 找到【請輸入你喜歡的助教】下面的輸入框位置
assistant.send_keys('都喜歡') # 輸入文字
button = driver.find_element_by_class_name('sub') # 找到【提交】按鈕
button.click() # 點擊【提交】按鈕
time.sleep(1)
driver.close() # 關閉瀏覽器