【爬蟲計劃】Scrapy框架的學習及跟課學習 | csdn_Part 03 Selector選擇器

原創

云胡实验室

2020-06-22 16:23

接着上篇存儲到本地文件後，對於規則與爬取對象的選取這部分工作放到了Selector選擇器部分，可以理解爲對於目標的解析方法。

本節關鍵詞：直接使用 | xpath | 正則匹配 | CSS

1.直接使用

對於這部分，使用一個小demo演示，在命令行處執行發現直接跳轉到編譯器pycharm，於是就用pycharm來運行了。代碼在下自取：

# encoding:UTF-8
'''
爲了檢驗Selector直接使用的用法
'''

from scrapy import Selector

content = '<html><head><h3>hello world</h3><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg"><link rel="dns-prefetch" href="//dss0.bdstatic.com"/><link rel="dns-prefetch" href="//dss1.bdstatic.com"/><link rel="dns-prefetch" href="//ss1.bdstatic.com"/><link rel="dns-prefetch" href="//sp0.baidu.com"/><link rel="dns-prefetch" href="//sp1.baidu.com"/><link rel="dns-prefetch" href="//sp2.baidu.com"/><title>百度一下，你就知道</title>'

selector = Selector(text=content)
print(selector.xpath('/html/heal/title/text()').extract_first())
print(selector.css("h3::text").extract_first())
print("text")

在演示過程中，使用的是【文件名加後綴名】後直接回車的方式直接運行，經測試並沒有輸出結果，直接打開了編譯器，所以轉向編譯器：

其text部分的輸出測試是爲了排除匹配不成功，沒有獲取到結果所以沒有輸出的結果，考慮直接執行，編譯的仍然是python文件，猜想是因爲沒有設置默認編譯py文件，這裏貼出在pycharm中運行成功的截圖，繼續往後走：

進入shell中發現，使用命令後出現上一個文件執行結果，並且對baidu網頁進行採集：

scrapy shell https:www.baidu.com

採集結束後進入shell模式，可以使用兩條命令查看採集網頁狀態碼及url：

response.status

response.url

針對百度網頁的selector用法分別獲取到html-head-title下的文本信息，其中extract( )、extract_first( )兩個函數分別取出其中文本信息和列表中首條信息(下個部分對於xpath方法這部分有具體講解)，因此獲取結果不同：

繼續對網頁進行提取操作，例如對所有a標籤的提取文本和超鏈接：

2.XPath選擇器

講完直接選擇器，開始對xpath方法進行講解，其中xpath方法和另三種extract*類方法的功能如下：

講完理論照例，使用一個例子來說明xpath的具體用法，這次下手的是taobao網頁（參照上面shell+網址命令，將網址換成 https://www.taobao.com/tbhome/page/special-markets），繼續採集工作，輸入後我的採集進程較慢，不知是不是網速影響，稍等一會就能出來：