Python爬蟲學習筆記(應對反爬蟲)

1.爬蟲被網站識別的特徵:

  • 爬取幾次後需要進行驗證
  • 響應時間、速度變慢了
  • 返回錯誤的狀態碼

2.規避反爬蟲

  • 加入user-agent、cookie、referer等信息
  • 減緩爬蟲速度,降低請求頻率,設置下載等待時間
  • 使用Chrome Headless模擬瀏覽器訪問
  • 拒絕遵守Robot協議:ROBOTSTXT_OBEY = False
  • 減小併發請求數
  • 使用分佈式爬蟲
  • 使用代理或代理池
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章