基於python的-反反爬蟲手段

# -*- coding:utf-8 -*-
import requests

# 抓包工具
# charles
# fiddler

# 參數1: url,填網址
# 參數2: params,網址後需要添加的參數
# 參數3: **kwargs,不定長鍵值對參數,一般key=value
# 在參數3,headers={},
#          cookies={} 或者cookieJar
#          timeout=小數或者元祖
response = requests.get("http://www.baidu.com", headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"})
print("響應頭",response.headers)
print("響應數據",response.content)
print("響應行中的狀態碼",response.status_code)
print("響應行中的短語",response.reason)

# 反爬蟲的手段之一:
# 通過請求的User-Agent字段來判斷你是不是一個爬蟲

# 反反爬蟲的手段之一:
# 通過修改請求頭的User-Agent字段來突破反爬蟲的手段


"""
              爬蟲程序                             服務器
編寫爬蟲代碼,發起請求,接收響應,爬取數據------------>監控到某個時間段,訪問量突然增大,冰球發起請求的ip地址相同,User-Agent字段判斷
在發起請求時,添加User-Agent字段,模仿用戶代理------->檢測到某個ip訪問速率過高,限制訪問頻率
在發請求時,使用代理ip,設置請求時間間隔------------->需要登錄後才能獲取數據
註冊網站賬號,模擬cookie/token登錄,發起請求--------->健全賬號體系,只有相互關注的好友才能訪問
註冊多個賬戶,進行爬蟲----------------------------->發現請求過於頻繁,彈出驗證碼
使用雲打碼平臺進行驗證----------------------------->增加動態頁面,比較重要的數據,使用Js發起請求動態加載
1.抓取Js騎牛,模擬發送
2.selenium完全模擬用戶行爲,操作網頁----------------> 放棄
    
"""
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章