爬蟲學習——Scrapy框架學習（四）

接之前的博客內容

Scrapy爬蟲的基本使用

步驟：

1、創建一個工程和Spider模板；

2、編寫Spider；

3、編寫Item Pipeline;

4、優化配置策略

Scrapy爬蟲的數據類型：

1、Reqeust類（向網絡中提交請求的內容）

class scrapy.http.Request()

Request對象表示一個HTTP請求；由Spider生成，由Downloader執行

_____________________________________________

屬性或方法 ||| 說明

.url Request對應的請求URL地址

.method 對應的請求方法，'GET' 'POST'等

.headers 字典類型風格的請求頭

.body 請求內容主體，字符串類型

.meta 用戶添加的擴展信息，在Scrapy內部模塊間傳遞信息使用

.copy() 複製該請求

——————————————————————————

2、Response類（從網絡中爬取內容的封裝類）

class scrapy.http.Response()

Response對象表示一個HTTP請求；由Downloader生成，由Spider處理

_______________________________________________________

屬性或方法 ||| 說明

.url Response對應的URL地址

.status HTTP狀態碼，默認是200

.headers Response對應的頭部信息

.body Response對應的內容信息，字符串類型

.flags 一組標記

.request 產生Response類型對應的Request對象

.copy() 複製該響應

———————————————————————————————

3、Item類（由Spider產生的信息封裝的類）

class scrapy.item.Item()

Item對象表示一個從HTML頁面中提取的信息內容；由Spider生成，由Item Pipeline處理

Item類似字典類型，可以按照字典類型操作

Scrapy爬蟲支持多種HTML信息提取方法（Spider模塊用來解析HTML頁面的方法）：

①Beautiful Soup；②lxml；③re；④XPath Selector；⑤CSS Selector

下面介紹CSS Selector的使用方法：

基本使用

<HTML>.css('a::attr(href)').extract()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲學習——Scrapy框架學習（四）

Scrapy爬蟲的基本使用

步驟：

Scrapy爬蟲的數據類型：

Scrapy爬蟲支持多種HTML信息提取方法（Spider模塊用來解析HTML頁面的方法）：

下面介紹CSS Selector的使用方法：

創新實訓——010

創新實訓——009

創新實訓——006

創新實訓——013

創新實訓——011

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結