接之前的博客內容
Scrapy爬蟲的基本使用
步驟:
1、創建一個工程和Spider模板;
2、編寫Spider;
3、編寫Item Pipeline;
4、優化配置策略
Scrapy爬蟲的數據類型:
1、Reqeust類(向網絡中提交請求的內容)
class scrapy.http.Request()
Request對象表示一個HTTP請求;由Spider生成,由Downloader執行
_____________________________________________
屬性或方法 ||| 說明
.url Request對應的請求URL地址
.method 對應的請求方法,'GET' 'POST'等
.headers 字典類型風格的請求頭
.body 請求內容主體,字符串類型
.meta 用戶添加的擴展信息,在Scrapy內部模塊間傳遞信息使用
.copy() 複製該請求
——————————————————————————
2、Response類(從網絡中爬取內容的封裝類)
class scrapy.http.Response()
Response對象表示一個HTTP請求;由Downloader生成,由Spider處理
_______________________________________________________
屬性或方法 ||| 說明
.url Response對應的URL地址
.status HTTP狀態碼,默認是200
.headers Response對應的頭部信息
.body Response對應的內容信息,字符串類型
.flags 一組標記
.request 產生Response類型對應的Request對象
.copy() 複製該響應
———————————————————————————————
3、Item類(由Spider產生的信息封裝的類)
class scrapy.item.Item()
Item對象表示一個從HTML頁面中提取的信息內容;由Spider生成,由Item Pipeline處理
Item類似字典類型,可以按照字典類型操作
Scrapy爬蟲支持多種HTML信息提取方法(Spider模塊用來解析HTML頁面的方法):
①Beautiful Soup;②lxml;③re;④XPath Selector;⑤CSS Selector
下面介紹CSS Selector的使用方法:
基本使用
<HTML>.css('a::attr(href)').extract()