嵩天老師網絡爬蟲之Scrapy框架解析筆記(四)

一、Scrapy爬蟲框架介紹
功能強大的網絡爬蟲框架,重要的技術路線
(一)、安裝 pip install scrapy
(二)、scrapy不是一個簡單的函數功能庫,而是一個爬蟲框架。
爬蟲框架:是實現爬蟲功能的一個軟件結構和功能組件集合。它是一個半成品,能夠幫助用戶實現專業網絡爬蟲。
(三)、Scrapy爬蟲框架結構
下面這個圖將其工作流程圖形化,幫助我們很好的理解Scrapy爬蟲框架的工作過程。
在這裏插入圖片描述
在這裏插入圖片描述
二、Scrapy爬蟲框架解析
5個主要模塊和2箇中間件。
Engine模塊:控制左右模塊之間的數據流,根據條件觸發事件,不需要用戶修改。
Downloader模塊:根據請求下載網頁,不需要用戶修改。
Scheduler模塊:對所需要爬取請求進行調度管理,不需要用戶修改。
Downloader Middleware中間件:其目的是實施Engine、Scheduler和Downloader之間進行用戶可配置的控制;其功能是修改、丟棄、新增請求或響應。用戶是可以編寫配置代碼。
Spider模塊:解析Downloader返回的響應(Response),產生爬取項(scraped item),產生額外的爬取請求(Request),需要用戶編寫配置代碼。
Item Pipelines模塊:以流水線方式處理Spider產生的爬取項。由一組操作順序組成,類似流水線,每個操作是一個Item Pipeline類型。可能操作包括:清理、檢驗和查重爬取項中的HTML數據、將數據存儲到數據庫。需要用戶編寫配置代碼。
Spider Middleware中間件:其目的是對請求和爬取項的再處理,功能是:修改丟棄和新增請求或爬取項。用戶可以編寫配置代碼。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章