反爬手段以及應對的方法

反爬手段以及應對的方法

限制IP

限制Cookie

概念

Alt text

搜狗微信公衆號文章的爬取

前言

weixin.sogou.com 是一個反爬極其嚴厲的站點。ip地址,cookie,驗證碼都有限制。尤其對cookie的限制
爬取 sogou.weixin.com 的 HTTP 請求的 Cookie 中,必須包含四個參數:SNUID 、SUID、ppinf 和ppmdig。

其中 SNUID 和 SUID 是訪問 sogou.weixin.com 必須的,

而 ppinf 和 ppmdig 是訪問後十頁必須的。

對於禁封 Cookie,主要是禁封參數 SNUID。假如出現了驗證碼封禁,其實只是給你傳送了一個新的參數 SNUID。

解決措施

構造一個 SNUID 參數池,當我們的請求返回的狀態碼是 302 時,我們就使用一個全新的請求頭,這時我們就可以成功突破 Cookie 的封禁。

驗證碼

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章