使用python scrapy爬蟲爬取豆瓣的內容學習要點筆記

原創

qq_24726703

2019-05-21 13:17

項目源碼地址
https://github.com/kongweiteng/douban_crawler

項目中需要修改和注意的幾點

項目的ITEM_PIPELINES 是指定的房價爬蟲的需要修改
還有一個爬蟲, 爬取房價的, 部分內容不是針對豆瓣的需要手動修改
如果pycharm中有提示不存在包, 可以點擊提示進行修復, 很可能是你的本地python版本與pycharm 默認的版本不一致, 且路徑不對我的是需要從pycharm的py 3.5 改到本地的 py 2.7版本正確路徑即可, 同時實現了方法的跳轉, 包括python的系統函數
需要自己安裝補全沒有的擴展
項目中需要自己設置編碼否則運行可能會報錯
我的報錯版本 py2.7, 添加如下代碼

# 此時問題解決，但是在每個py腳本加上這句話太麻煩，這時我們只需在出問題的地方加上這三句話。
# 例如：我在導入matplotlib時出現編碼問題，找到編碼出錯的文件爲__init__.py 
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

另外爬蟲文件名和爬蟲名不能重複一個爬蟲項目不能存在多個同名的爬蟲可以多個不同名的爬蟲

DOWNLOAD_DELAY
注意設置延時不要平頻繁請求

ITEM_PIPELINES
指定執行處理item的類多個爬蟲時需要注意同步修改

DOWNLOADER_MIDDLEWARES
中間件需要注意末尾的數字爲優先級不能重複

yield 自動傳遞數據到管道進行處理數據存儲等工作

輸出文件是在執行爬蟲的時候添加 -o 參數 +文件名

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用python scrapy爬蟲爬取豆瓣的內容學習要點筆記

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

再談23種設計模式（3）：行爲型模式（學習筆記）

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

所有職位崗位大全看看都有些什麼崗位職位

WordPress 安裝自己的網站

js 常用代碼網絡整理 Js/jQuery實時監聽input輸入框值變化 js遍歷a標籤： JS產生隨機數的幾個方法 js定時器選擇第一個a鏈接標籤

安裝軟件出現Microsoft Visual C++ 2015 Redistributable (x64) 安裝失敗 win10卸載2017再次進行即可

docker dnmp環境報錯 The directory is not writable by the Web process: /var/www/html/test/web/assets

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

使用python scrapy爬蟲爬取豆瓣的內容 學習要點筆記

使用python scrapy爬蟲爬取豆瓣的內容學習要點筆記