乾貨|Python爬蟲如何設置代理IP

在學習Python爬蟲的時候,經常會遇見所要爬取的網站採取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁信息常常會給網站服務器帶來巨大壓力,所以同一個IP反覆爬取同一個網頁,就很可能被封,這裏講述一個爬蟲技巧,設置代理IP。
配置環境

安裝requests庫
安裝bs4庫
安裝lxml庫
具體代碼
乾貨|Python爬蟲如何設置代理IP
函數get_ip_list(url, headers)傳入url和headers,最後返回一個IP列表,列表的元素類似122.114.31.177:808格式,這個列表包括國內髙匿代理IP網站首頁所有IP地址和端口。
函數get_random_ip(ip_list)傳入第一個函數得到的列表,返回一個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次運行都使用不同的IP訪問被爬取的網站,有效地避免了真實IP被封的風險。
proxies的格式是一個字典:{‘http’: ‘http://122.114.31.177:808‘},可以將下面的執行也封裝爲方法
代理IP的使用
運行上面的代碼會得到一個隨機的proxies,把它直接傳入requests的get方法中即可
乾貨|Python爬蟲如何設置代理IP

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章