項目源碼地址
https://github.com/kongweiteng/douban_crawler
項目中需要修改和注意的幾點
-
項目的ITEM_PIPELINES 是指定的房價爬蟲的 需要修改
-
還有一個爬蟲, 爬取房價的, 部分內容不是針對豆瓣的 需要手動修改
-
如果pycharm中有提示不存在包, 可以點擊提示進行修復, 很可能是你的本地python版本與pycharm 默認的版本不一致, 且路徑不對 我的是需要從pycharm的py 3.5 改到本地的 py 2.7版本正確路徑即可, 同時實現了方法的跳轉, 包括python的系統函數
-
需要自己安裝補全沒有的擴展
-
項目中需要自己設置編碼 否則運行可能會報錯
-
我的報錯版本 py2.7, 添加如下代碼
# 此時問題解決,但是在每個py腳本加上這句話太麻煩,這時我們只需在出問題的地方加上這三句話。
# 例如:我在導入matplotlib時出現編碼問題,找到編碼出錯的文件爲__init__.py
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
另外 爬蟲文件名和爬蟲名不能重複 一個爬蟲項目不能存在多個同名的爬蟲 可以多個不同名的爬蟲
DOWNLOAD_DELAY
注意設置延時 不要平頻繁請求
ITEM_PIPELINES
指定執行處理item的類 多個爬蟲時需要注意同步修改
DOWNLOADER_MIDDLEWARES
中間件 需要注意末尾的數字爲優先級 不能重複
yield 自動傳遞數據到管道進行處理 數據存儲等工作
輸出文件是在執行爬蟲的時候添加 -o 參數 +文件名