前提:安裝好scrapy模塊
使用pip install scrapy
步驟一:創建項目
在你的程序主目錄執行下面命令
scrapy startproject baidu
然後根據步驟繼續執行
cd baidu
scrapy genspider baidu baidu.com
注意:在這裏可能會出現scrapy沒有此命令的錯誤,請檢查環境變量是否配置
步驟二:idea打開項目
我們現在請打開idea,看目錄結構
步驟三:編寫代碼
我們打開baidu.py文件
我們可以在重寫的parse方法裏面實現我們的業務,使用正則,xpath,等等對response相應回來的數據進行解析。這裏小編只是單純的保存了一下.
寫一個保存的功能
步驟四:執行
scrapy crawl baidu
然後請當前目錄查看文件,發現沒有baidu.html我們保存的文件
原因:
百度服務器應對爬蟲協議:
https://www.baidu.com/robots.txt
再次執行命令。成功保存。