基於python的-反反爬蟲手段

原創

2020-07-06 04:33

# -*- coding:utf-8 -*-
import requests

# 抓包工具
# charles
# fiddler

# 參數1: url,填網址
# 參數2: params,網址後需要添加的參數
# 參數3: **kwargs,不定長鍵值對參數,一般key=value
# 在參數3中,headers={},
#          cookies={} 或者cookieJar
#          timeout=小數或者元祖
response = requests.get("http://www.baidu.com", headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"})
print("響應頭",response.headers)
print("響應數據",response.content)
print("響應行中的狀態碼",response.status_code)
print("響應行中的短語",response.reason)

# 反爬蟲的手段之一:
# 通過請求的User-Agent字段來判斷你是不是一個爬蟲

# 反反爬蟲的手段之一:
# 通過修改請求頭的User-Agent字段來突破反爬蟲的手段


"""
              爬蟲程序                             服務器
編寫爬蟲代碼,發起請求,接收響應,爬取數據------------>監控到某個時間段,訪問量突然增大,冰球發起請求的ip地址相同,對User-Agent字段判斷
在發起請求時,添加User-Agent字段,模仿用戶代理------->檢測到某個ip訪問速率過高,限制訪問頻率
在發請求時,使用代理ip,設置請求時間間隔------------->需要登錄後才能獲取數據
註冊網站賬號,模擬cookie/token登錄,發起請求--------->健全賬號體系,只有相互關注的好友才能訪問
註冊多個賬戶,進行爬蟲----------------------------->發現請求過於頻繁,彈出驗證碼
使用雲打碼平臺進行驗證----------------------------->增加動態頁面,比較重要的數據,使用Js發起請求動態加載
1.抓取Js騎牛,模擬發送
2.selenium完全模擬用戶行爲,操作網頁----------------> 放棄
    
"""

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於python的-反反爬蟲手段

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

基於python的-scrapy框架的基本用法

基於python的-內存管理

基於python的-正則中的函數

基於python的-Random_Agent

基於python的-get和post請求

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結