python—你不知道的反爬蟲措施!

1.反爬蟲是因爲爬蟲才誕生的,想要很好的運用反爬蟲,就要先清楚爬蟲及爬蟲機制。

先了解一下爬蟲,反爬蟲的概念,如下:

爬蟲:使用任何技術及手段,批量抓取網站信息的一種方法,且關鍵在於 批量。

反爬蟲:即爲使用任何技術及手段,阻止被人 抓取自己網站信息的一種方法,關鍵在於批量和減少阻止過程中的誤傷。

2.反爬蟲是針對爬蟲設計的,一般架構如下:
對請求進行數據統計等預處理,便於識別爬蟲
識別是否是爬蟲
針對識別結果,進行適當處理
通常網站爲力避免普通用戶遭到 誤傷,而做不到完全的攔截爬蟲機制的!

3.反爬蟲的一些措施:

反爬蟲的關鍵在於阻止被批量爬取,重點在批量。
反爬蟲技術的核心在於不斷變更規則,比如不斷變更驗證碼。

我們在內容上可以做如下文章:

網站不同地方的文本內容添加不同的自帶標籤,增加對方數據清理難度
關鍵數據由文本轉圖片,甚至添加水印等。目前市場上圖片ocr識別無法有效轉文字,讓對方即使獲取了圖片也無法有效使用。

網站相關頁面的列表查詢,限制總頁數的展示。比如數據一共1K頁,相關接口卻只對外展示前十頁。對方找不到入口最多爬取10頁數據。

間接關閉網站核心數據查看入口,比如內容的查看像百度文庫一樣改爲word、pdf或者ppt下載模式,高頻下載需要驗證碼或者賬號積分

網站不提供註冊入口,或者註冊需要內部推薦或者評審,加大爬蟲方獲取賬號的難度。

網站的請求url複雜化,比如弄的像淘寶一樣沒有規律,id改爲UUID等。

前端頁面儘可能不暴露數據的唯一鍵,對唯一鍵如主鍵id等進行僞裝,可以增加對方爬取後的去重成本。因爲對方爬數據可能是在你的多個模塊頁面進行多維度爬取,會有大量的重複數據。

前端html頁面別一次性加載列表,根據用戶點擊js動態加載。即查詢頁面源碼時,只能看到列表的第一條數據。

當確定訪問異常時,大量返回虛假數據。爬蟲幾乎沒有判斷數據真假的能力,只有人才有。對方發現的越晚,我們的處理應對時間就越充裕。

核心數據提高安全等級,單獨加密等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章