關於scrapy的驗證碼處理

之前用scrapy爬取網頁時經常出現需要驗證碼,但是返回的是個response對象,不知道要如何進行破解。

以往都是selenium進行截圖驗證碼,模擬拖動,但是scrapy在yield請求後就直接走了,不知道如何下手。


百度了一圈,後面發現原來大家都是靠中間件來完成突破驗證碼的

首先經過爬蟲的話,要處理請求的話應該調用

DownloaderMiddleware裏的process_request

要處理響應的話應該調用

DownloaderMiddleware裏的process_response

其餘的像UA,代理切換的中間件應該優先級在DownloaderMiddleware之前。

像對驗證碼的處理的話應該在process_response判斷是不是出現驗證碼,是的話換ip切UA來繞過它

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章