嵩天老師網絡爬蟲之Scrapy框架解析筆記（四）

原創

2020-06-23 04:24

一、Scrapy爬蟲框架介紹
功能強大的網絡爬蟲框架，重要的技術路線
（一）、安裝 pip install scrapy
（二）、scrapy不是一個簡單的函數功能庫，而是一個爬蟲框架。
爬蟲框架：是實現爬蟲功能的一個軟件結構和功能組件集合。它是一個半成品，能夠幫助用戶實現專業網絡爬蟲。
（三）、Scrapy爬蟲框架結構
下面這個圖將其工作流程圖形化，幫助我們很好的理解Scrapy爬蟲框架的工作過程。

二、Scrapy爬蟲框架解析
5個主要模塊和2箇中間件。
Engine模塊：控制左右模塊之間的數據流，根據條件觸發事件，不需要用戶修改。
Downloader模塊：根據請求下載網頁，不需要用戶修改。
Scheduler模塊：對所需要爬取請求進行調度管理，不需要用戶修改。
Downloader Middleware中間件：其目的是實施Engine、Scheduler和Downloader之間進行用戶可配置的控制；其功能是修改、丟棄、新增請求或響應。用戶是可以編寫配置代碼。
Spider模塊：解析Downloader返回的響應（Response）,產生爬取項（scraped item），產生額外的爬取請求（Request）,需要用戶編寫配置代碼。
Item Pipelines模塊：以流水線方式處理Spider產生的爬取項。由一組操作順序組成，類似流水線，每個操作是一個Item Pipeline類型。可能操作包括：清理、檢驗和查重爬取項中的HTML數據、將數據存儲到數據庫。需要用戶編寫配置代碼。
Spider Middleware中間件：其目的是對請求和爬取項的再處理，功能是：修改丟棄和新增請求或爬取項。用戶可以編寫配置代碼。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

嵩天老師網絡爬蟲之Scrapy框架解析筆記（四）

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

嵩天老師爬蟲實例筆記（五）--股票數據Scrapy爬蟲實例

NOIP2018年初賽試題問題求解2解析

安裝Scrapy框架問題解決

嵩天老師網絡爬蟲與信息提取課程學習筆記（三）

嵩天老師網絡爬蟲與信息提取課程學習筆記（二）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結