網站的常見反爬方法總結

前言

本人學習網絡爬蟲有一段時間了,也爬了不少網站。在這期間,我遇到了很多的反爬措施,個人覺得爬蟲與反爬蟲就像矛和盾一樣,矛強大了,盾也必然會升級,有點魔高一尺道高一丈的感覺。今天,我就總結一下我遇到的一些反爬策略。

正文


1、在請求頭做限制,其中最長見的就是user-agent,如果你的爬蟲不進行請求頭僞裝,那麼網站不會給你返回數據,還有些網站會判斷referer和請求頭的其他一些字段。
2、驗證碼,這個一直是令人比較頭疼的問題,當你請求次數過多或者請求過於頻繁時,網站直接給你彈個驗證碼,導致你不能繼續獲取數據,那些圖片驗證碼還比較好解決,但是像那些滑動的驗證碼就比較棘手了。當然,你可以用代理IP來解決這個問題,或者降低爬蟲的爬取速度。
3、特殊字體,這個是我爬大衆點評時遇到的,直接查看網頁源代碼會發現有些字不能顯示,還有一些亂碼。
4、數據加密,這個也挺頭疼的,你拿到的數據是加密的,需要去分析JS代碼,找出解密的方法。
5、前端頁面反調試,當你企圖分析網站頁面時,發現無法進行調試。

後記

暫時就遇到這麼多了,以後會繼續更新。




未完待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章