scrapy爬蟲pipline 代碼，儲存爲MongoDB

原創

2020-06-16 06:51

item轉爲字典存入mongodb

只需要在setting中給出MongoDB的url和庫名就可以用

class WeibMongoPipline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE'),
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        if isinstance(item, WeiboItem):
            self._process_use_item(item)
        elif isinstance(item, WeiboContentItem):
            self._process_cont_item(item)
        return item

    def _process_use_item(self, item):
        # 以id去重插入   db後面的是你自己的集合名   
        self.db.user.update({'id': item['id']}, {'$set': dict(item)}, True)
        print(u'微博用戶插入成功')

    def _process_cont_item(self, item):
        self.db.content.update({'cont_id': item['cont_id']}, {'$set': dict(item)}, True)
        print(u'微博內容插入成功')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從入門到精通：掌握Scrapy框架的關鍵技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

項目配置之道：優化Scrapy參數提升爬蟲效率

前言在當今信息時代，數據是無處不在且無比重要的資源。爲了獲取有效數據，網絡爬蟲成爲了一項至關重要的技術。Scrapy作爲Python中最強大的網絡爬蟲框架之一，提供了豐富的功能和靈活的操作，讓數據採集變得高效而簡單。本文將以爬取豆瓣網

2024-03-23 12:11:26

Scrapy 核心 API 提供了開發者訪問和集成 Scrapy 核心組件的接口

以下是 Scrapy 核心 API 的摘要： Scrapy 核心 API 提供了開發者訪問和集成 Scrapy 核心組件的接口。主要入口點是 Crawler API，通過 C

2024-02-23 00:29:18

Scrapy爬蟲錯誤日誌彙總

1、數組越界問題(list index out of range) 原因：第1種可能情況：list[index]index超出範圍,也就是常說的數組越界。　　　第2種可能情況：list是一個空的，沒有一個元素，進行list[0]就會出

2021-12-25 21:29:06

Python爬蟲框架Scrapy學習記錄-Spider

Scrapy簡介 Scrapy是Python實現的爬蟲框架,使用只需要關注核心業務即可.安裝教程請參考官方文檔安裝完成之後可通過scrapy 命令創建項目,爬蟲,及運行爬蟲,詳情使用 scrapy -h 命令查看創建項目及爬蟲後重寫爬蟲

2021-12-25 21:10:43

無法在 Mac OS X 10.9 上安裝 Lxml - Cannot install Lxml on Mac OS X 10.9

問題： I want to install Lxml so I can then install Scrapy.我想安裝 Lxml，這樣我就可以安裝 Scrapy。 When I updated my Mac today it woul

2021-10-12 09:19:27

安裝這5個插件後，PyCharm好用到起飛！(文末贈書)

點擊上方“ Python爬蟲與數據挖掘 ”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書今日雞湯合抱之木，生於毫末。大家好，我

Python進階者

2021-08-23 21:24:05

Python 30秒就能學會的漂亮短代碼

Python進階者

2021-08-11 21:23:45

CentOs安裝Scrapy出現error: Setup script exited with error: command ‘gcc’ failed with exit status 1錯誤解決方案

CentOs安裝Scrapy出現error: Setup script exited with error: command ‘gcc’ failed with exit status 1錯誤解決方案參考文章：（1）CentOs安裝S

2021-07-19 21:19:25

使用pyinstaller打包使用scrapy模塊的程序運行時出現No such file or directory的問題解決

使用pyinstaller打包使用scrapy模塊的程序運行時出現No such file or directory的問題解決參考文章：（1）使用pyinstaller打包使用scrapy模塊的程序運行時出現No such file

2021-06-11 21:26:58

需要解決的問題：scrapy框架yield和return

需要解決的問題：scrapy框架yield和return 參考文章：（1）需要解決的問題：scrapy框架yield和return （2）https://www.cnblogs.com/qiaoer1993/p/10808358.htm

2021-06-03 09:20:41

Python系列爬蟲之Scrapy實戰 | 抓取並分析天氣數據

前言利用Python“簡單地”抓取並分析一下天氣數據。補充一下之前數據可視化的空白。開發工具** Python版本：3.6.4 相關模塊： PIL模塊； requests模塊； pyecharts模塊；以及一些Python自帶的模

2021-04-14 21:24:48

我爲女友做了一款App

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-23 14:18:51

大數據技術升級脈絡及認知陷阱 | InfoQ 大咖說

直播內容：多年來，大數據技術經歷了幾輪更迭，在計算、存儲、大規模落地等層面均取得了不錯的進展，並在不斷的成長和成熟，整個生態領域也得到了快速發展。目前，基於分析的大數據計算平臺在各大公司發揮着非常重要的基礎設施的作用。本期，網易數據科學

InfoQ 中文站

2021-04-26 10:43:51

24小時熱門文章

最新文章

最新評論文章