python—你不知道的反爬蟲措施！

原創

2020-02-27 02:04

1.反爬蟲是因爲爬蟲才誕生的，想要很好的運用反爬蟲，就要先清楚爬蟲及爬蟲機制。

先了解一下爬蟲，反爬蟲的概念，如下：

爬蟲：使用任何技術及手段，批量抓取網站信息的一種方法，且關鍵在於批量。

反爬蟲：即爲使用任何技術及手段，阻止被人抓取自己網站信息的一種方法，關鍵在於批量和減少阻止過程中的誤傷。

2.反爬蟲是針對爬蟲設計的，一般架構如下：
對請求進行數據統計等預處理，便於識別爬蟲
識別是否是爬蟲
針對識別結果，進行適當處理
通常網站爲力避免普通用戶遭到誤傷，而做不到完全的攔截爬蟲機制的！

3.反爬蟲的一些措施：

反爬蟲的關鍵在於阻止被批量爬取，重點在批量。
反爬蟲技術的核心在於不斷變更規則，比如不斷變更驗證碼。

我們在內容上可以做如下文章：

網站不同地方的文本內容添加不同的自帶標籤，增加對方數據清理難度
關鍵數據由文本轉圖片，甚至添加水印等。目前市場上圖片ocr識別無法有效轉文字，讓對方即使獲取了圖片也無法有效使用。

網站相關頁面的列表查詢，限制總頁數的展示。比如數據一共1K頁，相關接口卻只對外展示前十頁。對方找不到入口最多爬取10頁數據。

間接關閉網站核心數據查看入口，比如內容的查看像百度文庫一樣改爲word、pdf或者ppt下載模式，高頻下載需要驗證碼或者賬號積分

網站不提供註冊入口，或者註冊需要內部推薦或者評審，加大爬蟲方獲取賬號的難度。

網站的請求url複雜化，比如弄的像淘寶一樣沒有規律，id改爲UUID等。

前端頁面儘可能不暴露數據的唯一鍵，對唯一鍵如主鍵id等進行僞裝，可以增加對方爬取後的去重成本。因爲對方爬數據可能是在你的多個模塊頁面進行多維度爬取，會有大量的重複數據。

前端html頁面別一次性加載列表，根據用戶點擊js動態加載。即查詢頁面源碼時，只能看到列表的第一條數據。

當確定訪問異常時，大量返回虛假數據。爬蟲幾乎沒有判斷數據真假的能力，只有人才有。對方發現的越晚，我們的處理應對時間就越充裕。

核心數據提高安全等級，單獨加密等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.