爬蟲學習——Scrapy框架學習(四)

接之前的博客內容

Scrapy爬蟲的基本使用

步驟:

1、創建一個工程和Spider模板;

2、編寫Spider;

3、編寫Item Pipeline;

4、優化配置策略

Scrapy爬蟲的數據類型:

1、Reqeust類(向網絡中提交請求的內容)

class scrapy.http.Request()

Request對象表示一個HTTP請求;由Spider生成,由Downloader執行

_____________________________________________

屬性或方法    |||                   說明

.url                      Request對應的請求URL地址

.method              對應的請求方法,'GET' 'POST'等

.headers             字典類型風格的請求頭

.body                   請求內容主體,字符串類型

.meta                   用戶添加的擴展信息,在Scrapy內部模塊間傳遞信息使用

.copy()                 複製該請求

——————————————————————————

2、Response類(從網絡中爬取內容的封裝類)

class scrapy.http.Response()

Response對象表示一個HTTP請求;由Downloader生成,由Spider處理

_______________________________________________________

屬性或方法       |||                       說明

.url                        Response對應的URL地址

.status                   HTTP狀態碼,默認是200

.headers                Response對應的頭部信息

.body                      Response對應的內容信息,字符串類型

.flags                       一組標記

.request                   產生Response類型對應的Request對象

.copy()                     複製該響應

———————————————————————————————         

3、Item類(由Spider產生的信息封裝的類)

class scrapy.item.Item()

Item對象表示一個從HTML頁面中提取的信息內容;由Spider生成,由Item Pipeline處理

Item類似字典類型,可以按照字典類型操作

Scrapy爬蟲支持多種HTML信息提取方法(Spider模塊用來解析HTML頁面的方法):

①Beautiful Soup;②lxml;③re;④XPath Selector;⑤CSS Selector

下面介紹CSS Selector的使用方法:

基本使用

<HTML>.css('a::attr(href)').extract()

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章