Scrapy爬蟲執行中yield請求未被拋出(或拋出未執行)解決方法(親測有效)

當我們在執行scrapy調試的時候可能會遇到yield請求未正確拋出的情況。

1、查看scrapy執行日誌

日誌中的這一項表示,我們的請求被過濾掉了20條。

解決方法:

1、將我們的請求ip地址域名(如:blog.csdn.net)添加到spider爬蟲文件的allowed_domains數組中

(另外:我們的允許請求域名中,域名後不需要添加‘/’號,否則會將我們正常的請求過濾掉)

2、在我們的yield Request請求中添加

dont_filter=True

再次執行爬蟲文件即可正常執行,並進行下一個請求的獲取和執行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章