爬蟲框架Scrapy的入門使用

前提:安裝好scrapy模塊
使用pip install scrapy

步驟一:創建項目

在你的程序主目錄執行下面命令

scrapy startproject baidu

在這裏插入圖片描述
然後根據步驟繼續執行

cd baidu
scrapy genspider baidu baidu.com
注意:在這裏可能會出現scrapy沒有此命令的錯誤,請檢查環境變量是否配置

步驟二:idea打開項目

我們現在請打開idea,看目錄結構
在這裏插入圖片描述

步驟三:編寫代碼

我們打開baidu.py文件

我們可以在重寫的parse方法裏面實現我們的業務,使用正則,xpath,等等對response相應回來的數據進行解析。這裏小編只是單純的保存了一下.
在這裏插入圖片描述
寫一個保存的功能

步驟四:執行

scrapy crawl baidu
在這裏插入圖片描述
然後請當前目錄查看文件,發現沒有baidu.html我們保存的文件

原因:
百度服務器應對爬蟲協議:
https://www.baidu.com/robots.txt
在這裏插入圖片描述
在這裏插入圖片描述
再次執行命令。成功保存。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章