使用python scrapy爬蟲爬取豆瓣的內容 學習要點筆記

項目源碼地址
https://github.com/kongweiteng/douban_crawler

項目中需要修改和注意的幾點

  • 項目的ITEM_PIPELINES 是指定的房價爬蟲的 需要修改

  • 還有一個爬蟲, 爬取房價的, 部分內容不是針對豆瓣的 需要手動修改

  • 如果pycharm中有提示不存在包, 可以點擊提示進行修復, 很可能是你的本地python版本與pycharm 默認的版本不一致, 且路徑不對 我的是需要從pycharm的py 3.5 改到本地的 py 2.7版本正確路徑即可, 同時實現了方法的跳轉, 包括python的系統函數

  • 需要自己安裝補全沒有的擴展

  • 項目中需要自己設置編碼 否則運行可能會報錯

  • 我的報錯版本 py2.7, 添加如下代碼

# 此時問題解決,但是在每個py腳本加上這句話太麻煩,這時我們只需在出問題的地方加上這三句話。
# 例如:我在導入matplotlib時出現編碼問題,找到編碼出錯的文件爲__init__.py 
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

另外 爬蟲文件名和爬蟲名不能重複 一個爬蟲項目不能存在多個同名的爬蟲 可以多個不同名的爬蟲

DOWNLOAD_DELAY
注意設置延時 不要平頻繁請求

ITEM_PIPELINES
指定執行處理item的類 多個爬蟲時需要注意同步修改

DOWNLOADER_MIDDLEWARES
中間件 需要注意末尾的數字爲優先級 不能重複

yield 自動傳遞數據到管道進行處理 數據存儲等工作

輸出文件是在執行爬蟲的時候添加 -o 參數 +文件名

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章