XPath 與 CSS （parsel）

原創

walker

2019-10-23 11:35

前言

XPath 即爲XML路徑語言（XML Path Language）
層疊樣式表（Cascading Style Sheets）是一種用來表現 HTML或XML等文件樣式的計算機語言
parsel 是從 Scrapy 獨立出來的解析器，可以用 xpath 或 css 提取 xml 或 html

實例

class相關

>>> from parsel import Selector
>>> htmlText = r'''
<html>
<body>
    <div class="value test">111</div>
    <div class="value test     ">222</div>
    <div class="first value test last">333</div>
    <div class="test value">444</div>
</body>
</html>'''
>>> sel = Selector(htmlText, type='html')

# 精確匹配 111
>>> sel.xpath('/html/body/div[@class="value test"]/text()').get()
'111'
>>> sel.css('div[class="value test"]::text').get()
'111'
# 匹配 111、222、333
>>> sel.xpath('/html/body/div[contains(@class, "value test")]/text()').getall()
['111', '222', '333']
>>> sel.css('div[class*="value test"]::text').getall()
['111', '222', '333']
# 匹配 111、222、333、444
>>> sel.xpath('/html/body/div[contains(@class, "value") and contains(@class, "test")]/text()').getall()
['111', '222', '333', '444']
>>> sel.css('div.value.test::text').getall()
['111', '222', '333', '444']

XPath 取字符串包含的方法

>>> from parsel import Selector
>>> htmlText = r'''
<html>
<body>
        <div>
                <em>Cancer Discovery</em><br>
                eISSN: 2159-8290<br>
                ISSN: 2159-8274<br>
        </div>
</body>
</html>'''
>>> sel = Selector(htmlText, type='html')

# 包含
>>> sel.xpath('/html/body/div/text()[contains(., "eISSN")]').get()
'\n                eISSN: 2159-8290'
# 不包含
sel.xpath('/html/body/div/text()[not(contains(., "eISSN"))]').getall()
Out[28]: ['\n                ', '\n                ISSN: 2159-8274', '\n        ']

本文出自 walker snapshot

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

XPath 與 CSS （parsel）

前言

實例

class相關

XPath 取字符串包含的方法

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

Python3 檢測文件真實類型（walker）

Requests：爲人類設計的HTTP庫

XPath 與 CSS （parsel）

Python3 讀取 toml 配置文件（UTF-8/UTF-8-BOM）

Linux 查看某個用戶組的所有用戶（Python實現）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結