# -*- coding:utf-8 -*- import requests # 抓包工具 # charles # fiddler # 參數1: url,填網址 # 參數2: params,網址後需要添加的參數 # 參數3: **kwargs,不定長鍵值對參數,一般key=value # 在參數3中,headers={}, # cookies={} 或者cookieJar # timeout=小數或者元祖 response = requests.get("http://www.baidu.com", headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"}) print("響應頭",response.headers) print("響應數據",response.content) print("響應行中的狀態碼",response.status_code) print("響應行中的短語",response.reason) # 反爬蟲的手段之一: # 通過請求的User-Agent字段來判斷你是不是一個爬蟲 # 反反爬蟲的手段之一: # 通過修改請求頭的User-Agent字段來突破反爬蟲的手段 """ 爬蟲程序 服務器 編寫爬蟲代碼,發起請求,接收響應,爬取數據------------>監控到某個時間段,訪問量突然增大,冰球發起請求的ip地址相同,對User-Agent字段判斷 在發起請求時,添加User-Agent字段,模仿用戶代理------->檢測到某個ip訪問速率過高,限制訪問頻率 在發請求時,使用代理ip,設置請求時間間隔------------->需要登錄後才能獲取數據 註冊網站賬號,模擬cookie/token登錄,發起請求--------->健全賬號體系,只有相互關注的好友才能訪問 註冊多個賬戶,進行爬蟲----------------------------->發現請求過於頻繁,彈出驗證碼 使用雲打碼平臺進行驗證----------------------------->增加動態頁面,比較重要的數據,使用Js發起請求動態加載 1.抓取Js騎牛,模擬發送 2.selenium完全模擬用戶行爲,操作網頁----------------> 放棄 """
基於python的-反反爬蟲手段
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.