大數據開發神器——Scrapy Spider框架

image.png


大數據學習

估計很多同學跟我一樣都是從學習Python的爬蟲開始的。當然你可以使用lxml、BeautifulSoup、Request等第三方庫來編寫自己的爬蟲。但是當需要爬取海量數據,特別是大數據的實際應用中,若自己編寫爬蟲,是一件特別困難的事情。還好Python提供了類似Scrapy等類似的爬蟲框架


本人對於大數據學習創建了一個小小的學習圈子,爲各位提供了一個平臺,大家一起來討論學習大數據。歡迎各位到來大數據學習羣:868847735 一起討論視頻分享學習。大數據是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握大數據核心技術,纔是掌握真正的價值所在。

Scrapy框架介紹

大數據開發神器——Scrapy Spider框架

Scrapy Spider 框架圖

Scrapy | A Fast and Powerful Scraping and Web Crawling Framework

Scrapy框架主要包括:

Scrapy Engine(引擎)、Scheduler(調度器)、Downloader(下載器)、Spiders(爬蟲)、Item Pipeline、Downloader Middlewares(下載中間件)、Spider Middlewares(Spider中間件)

1、Scrapy Engine(引擎):負責Spiders、ItemPipeline、Downloader、Scheduler中間的通訊,信號、數據傳遞等等!(爬蟲的大腦)

2、Scheduler(調度器): 負責接受引擎發送過來的requests請求,並按照一定的方式進行整理排列,入隊、並等待Scrapy Engine(引擎)來請求時,交給引擎

3、Downloader(下載器):負責下載Scrapy Engine(引擎)發送的所有Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spiders來處理

大數據開發神器——Scrapy Spider框架


4、Spiders(爬蟲):它負責處理所有Responses,從中分析提取數據,獲取Item字段需要的數據,並將需要跟進的URL提交給引擎,再次進入Scheduler(調度器),

5、Item Pipeline:負責處理Spiders中獲取到的Item,並進行處理,比如去重,持久化存儲(存數據庫,寫入文件,總之就是保存數據用的)

6、Downloader Middlewares(下載中間件):一個可以自定義擴展下載功能的組件

7、Spider Middlewares(Spider中間件):一個可以自定義擴展和操作引擎,負責Spiders中間‘通信‘的功能組件(比如進入Spiders的Responses和從Spiders出去的Requests)

大數據開發神器——Scrapy Spider框架

簡單介紹一下scrapy的幾個基本知識

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章