當我們在執行scrapy調試的時候可能會遇到yield請求未正確拋出的情況。
1、查看scrapy執行日誌
日誌中的這一項表示,我們的請求被過濾掉了20條。
解決方法:
1、將我們的請求ip地址域名(如:blog.csdn.net)添加到spider爬蟲文件的allowed_domains數組中
(另外:我們的允許請求域名中,域名後不需要添加‘/’號,否則會將我們正常的請求過濾掉)
2、在我們的yield Request請求中添加
dont_filter=True
再次執行爬蟲文件即可正常執行,並進行下一個請求的獲取和執行。