常見的反扒機制及解決辦法

常見的反扒機制及解決辦法

總結了工作中遇到的反爬機制及解決辦法或思路,便於日後用到

1、User-Agent,客戶端版本信息
2、request, Method方式不同,常見GET、POST
+ post,有下面這種色兒的:
  formData = {
      '__EVENTVALIDATION': eventAliation,
      '__VIEWSTATE': viewState,
      '__EVENTTARGET': eventTaget,
      # 'pageIndex': int(pageIndex) + 1,
  }
3、cookie限制
4、訪問頻率,延時訪問
5、IP,IP代理
6、在html中動手腳,jquery
+ 加一些無意義的字符
+ 使用lxml解, 正則過濾 或 其他篩選方法
+ 源碼查看目標信息,根據實際規則 過濾出 自己的目標信息
+ 
7、Ajax動態加載 具體信息在json 中
+ 直接json.loads(html.text) 加載、解析,簡單
8、美團系,數字、文字woff字體加密
+ 找到目標woff文件,加載出字體庫的內容,用QQ截圖、識圖,識別文字
+ 加載 `from fontTools.ttLib import TTFont`,構造字典,
+ 在獲取網頁內容後,理解替換掉加密部分,
+ 再xpath解析 或 其他方式解析
+ 
+ 聽說有每個子頁面都是使用新的woff字體庫,這種比較變態的反爬,還未遇到,遇到的時候再說。。。。
++




遇到反爬,但未解決的記錄

1、大衆點評獲取店鋪聯繫電話,需要登錄,session 被封,無法請求到目標網頁,這個是不是隻有多賬號才能解決?
2、58 查詢企業招聘信息,使用代理IP無法請求到內容,,,,這個或許是代理IP池不夠大,後續優化一下再看看
3、58 手勢驗證碼。。。這個是因爲沒時間搞,,,後面看看什麼情況。。。。
4、滑塊破解,一般有背景圖片和缺口圖片做對比
+ 但是 58 的就只有帶缺口的圖片,這就給定位缺口位置帶來了麻煩,之前都是使用像素對比,現在咋弄???
ds
5、搜狗平臺驗證碼圖片無法使用ocr解析??是不是圖片太小了???待學習中,,,,,
sad




有名的反爬機制,還沒遇到的記錄

蜜罐技術
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章