反爬手段以及應對的方法
限制IP
限制Cookie
概念
搜狗微信公衆號文章的爬取
前言
weixin.sogou.com 是一個反爬極其嚴厲的站點。ip地址,cookie,驗證碼都有限制。尤其對cookie的限制
爬取 sogou.weixin.com 的 HTTP 請求的 Cookie 中,必須包含四個參數:SNUID 、SUID、ppinf 和ppmdig。
其中 SNUID 和 SUID 是訪問 sogou.weixin.com 必須的,
而 ppinf 和 ppmdig 是訪問後十頁必須的。
對於禁封 Cookie,主要是禁封參數 SNUID。假如出現了驗證碼封禁,其實只是給你傳送了一個新的參數 SNUID。
解決措施
構造一個 SNUID 參數池,當我們的請求返回的狀態碼是 302 時,我們就使用一個全新的請求頭,這時我們就可以成功突破 Cookie 的封禁。