常見的反爬蟲和應對方法

原創

2019-04-15 18:37

通過Headers 反爬蟲：

從用戶請求的Headers 反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers 的User-Agent進行檢測，還有一部分網站會對Referer 進行檢測（一些資源網站的防盜鏈就是檢測Referer）。如果遇到了這類反爬蟲機制，可以直接在爬蟲中添加Headers，將瀏覽器的User-Agent 複製到爬蟲的Headers 中；或者將Referer 值修改爲目標網站域名。對於檢測Headers 的反爬蟲，在爬蟲中修改或者添加Headers 就能很好的繞過。

基於用戶行爲反爬蟲：

還有一部分網站是通過檢測用戶行爲，例如同一IP 短時間內多次訪問同一頁面，或者同一賬戶短時間內多次進行相同操作。大多數網站都是前一種情況，對於這種情況，使用IP 代理就可以解決。可以專門寫一個爬蟲，爬取網上公開的代理ip，檢測後全部保存起來。這樣的代理ip 爬蟲經常會用到，最好自己準備一個。有了大量代理ip 後可以每請求幾次更換一個ip，這在requests 或者urllib2 中很容易做到，這樣就能很容易的繞過第一種反爬蟲。對於第二種情況，可以在每次請求後隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站，可以通過請求幾次，退出登錄，重新登錄，繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。

動態頁面的反爬蟲：

上述的幾種情況大多都是出現在靜態頁面，還有一部分網站，我們需要爬取的數據是通過ajax 請求得到，或者通過JavaScript 生成的。首先用Fiddler 對網絡請求進行分析。如果能夠找到ajax 請求，也能分析出具體的參數和響應的具體含義，我們就能採用上面的方法，直接利用requests 或者urllib2模擬ajax 請求，對響應的json 進行分析得到需要的數據。能夠直接模擬ajax 請求獲取數據固然是極好的，但是有些網站把ajax 請求的所有參數全部加密了。我們根本沒辦法構造自己所需要的數據的請求。這種情況下就用selenium+phantomJS，調用瀏覽器內核，並利用phantomJS 執行js 來模擬人爲操作以及觸發頁面中的js 腳本。從填寫表單到點擊按鈕再到滾動頁面，全部都可以模擬，不考慮具體的請求和響應過程，只是完完整整的把人瀏覽頁面獲取數據的過程模擬一遍。用這套框架幾乎能繞過大多數的反爬蟲，因爲它不是在僞裝成瀏覽器來獲取數據（上述的通過添加Headers 一定程度上就是爲了僞裝成瀏覽器），它本身就是瀏覽器，phantomJS 就是一個沒有界面的瀏覽器，只是操控這個瀏覽器的不是人。利selenium+phantomJS 能幹很多事情，例如識別點觸式（12306）或者滑動式的驗證碼，對頁面表單進行暴力破解等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

常見的反爬蟲和應對方法

通過Headers 反爬蟲：

基於用戶行爲反爬蟲：

動態頁面的反爬蟲：

SQL優化-20231016

synchronized關鍵字最主要的三種使用方式

Django下的（內建的）緩存機制

django 開發中數據庫做過什麼優化?

AJAX該如何使用

120天Java最新教程（基礎到企業實戰項目）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結