目錄
摘自W3School官方文檔:http://www.w3school.com.cn/xpath/index.asp
XPath簡介
XPath (XML Path Language)是一門在 HTML\XML 文檔中查找信息的語言,可用來在 HTML\XML 文檔中對元素和屬性進行遍歷。在Python爬蟲中,我們可以利用 XPath 快速地定位 HTML\XML 響應中的特定元素以及獲取節點的信息,並且通常情況下會比使用正則表達式提取更簡單而且更高效。
Chrome插件XPath Helper網盤鏈接:https://pan.baidu.com/s/1MHw9t5oQuFtH94Zox_bLkg
提取碼:4c5e
提示:在使用XPath Helper選擇標籤時,被選中的標籤會自動添加屬性 class="xh-highlight" 。
XPath語法
我們將以下面的這個 XML 文檔爲例對XPath的語法進行示例。
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
選取節點
XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿着路徑 (path) 或者步 (step) 來選取的。
下面列出了最有用的路徑表達式:
表達式 |
描述 |
nodename |
選取所有nodename子節點。 |
/ |
從根節點選取。 |
// |
從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 |
. |
選取當前節點。 |
.. |
選取當前節點的父節點。 |
@ |
選取屬性。 |
text() |
選取文本。 |
下面是一些實例:
路徑表達式 |
結果 |
bookstore |
選取 bookstore 元素的所有子節點。 |
/bookstore |
選取根元素 bookstore。 註釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑! |
bookstore/book |
選取屬於 bookstore 的子元素的所有 book 元素。 |
//book |
選取所有 book 子元素,而不管它們在文檔中的位置。 |
bookstore//book |
選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。 |
//@lang |
選取名爲 lang 的所有屬性。 |
//title/text() | 選取所有 title 元素的文本。 |
謂語(Predicates)
謂語用來查找某個特定的節點或者包含某個指定的值的節點。謂語被嵌在方括號中。
路徑表達式 |
結果 |
/bookstore/book[1] |
選取屬於 bookstore 子元素的第一個 book 元素。 |
/bookstore/book[last()] |
選取屬於 bookstore 子元素的最後一個 book 元素。 |
/bookstore/book[last()-1] |
選取屬於 bookstore 子元素的倒數第二個 book 元素。 |
/bookstore/book[position()<3] |
選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。 |
//title[@lang] |
選取所有擁有名爲 lang 的屬性的 title 元素。 |
//title[@lang='eng'] |
選取所有 title 元素,且這些元素擁有值爲 eng 的 lang 屬性。 |
/bookstore/book[price>35.00] |
選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。 |
/bookstore/book[price>35.00]/title |
選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。 |
選取未知節點
XPath 通配符可用來選取未知的 XML 元素。
通配符 |
描述 |
* |
匹配任何元素節點。 |
@* |
匹配任何屬性節點。 |
node() |
匹配任何類型的節點。 |
下面是一些實例:
路徑表達式 |
結果 |
/bookstore/* |
選取 bookstore 元素的所有子元素。 |
//* |
選取文檔中的所有元素。 |
//title[@*] |
選取所有帶有屬性的 title 元素。 |
選取若干路徑
通過在路徑表達式中使用“|”運算符,您可以選取若干個路徑。
路徑表達式 |
結果 |
//book/title | //book/price |
選取 book 元素的所有 title 和 price 元素。 |
//title | //price |
選取文檔中的所有 title 和 price 元素。 |
/bookstore/book/title | //price |
選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。 |
XPath 軸
軸可定義相對於當前節點的節點集。
軸名稱 |
結果 |
ancestor |
選取當前節點的所有先輩(父、祖父等)。 |
ancestor-or-self |
選取當前節點的所有先輩(父、祖父等)以及當前節點本身。 |
attribute |
選取當前節點的所有屬性。 |
child |
選取當前節點的所有子元素。 |
descendant |
選取當前節點的所有後代元素(子、孫等)。 |
descendant-or-self |
選取當前節點的所有後代元素(子、孫等)以及當前節點本身。 |
following |
選取文檔中當前節點的結束標籤之後的所有節點。 |
namespace |
選取當前節點的所有命名空間節點。 |
parent |
選取當前節點的父節點。 |
preceding |
選取文檔中當前節點的開始標籤之前的所有節點。 |
preceding-sibling |
選取當前節點之前的所有同級節點。 |
self |
選取當前節點。 |
下面是一些實例:
例子 |
結果 |
child::book |
選取所有屬於當前節點的子元素的 book 節點。 |
attribute::lang |
選取當前節點的 lang 屬性。 |
child::* |
選取當前節點的所有子元素。 |
attribute::* |
選取當前節點的所有屬性。 |
child::text() |
選取當前節點的所有文本子節點。 |
child::node() |
選取當前節點的所有子節點。 |
descendant::book |
選取當前節點的所有 book 後代。 |
ancestor::book |
選擇當前節點的所有 book 先輩。 |
ancestor-or-self::book |
選取當前節點的所有 book 先輩以及當前節點(如果此節點是 book 節點) |
child::*/child::price |
選取當前節點的所有 price 孫節點。 |
XPath 運算符
下面列出了可用在 XPath 表達式中的運算符:
運算符 |
描述 |
實例 |
返回值 |
| |
計算兩個節點集 |
//book | //cd |
返回所有擁有 book 和 cd 元素的節點集 |
+ |
加法 |
6 + 4 |
10 |
- |
減法 |
6 - 4 |
2 |
* |
乘法 |
6 * 4 |
24 |
div |
除法 |
8 div 4 |
2 |
= |
等於 |
price=9.80 |
如果 price 是 9.80,則返回 true。 如果 price 是 9.90,則返回 false。 |
!= |
不等於 |
price!=9.80 |
如果 price 是 9.90,則返回 true。 如果 price 是 9.80,則返回 false。 |
< |
小於 |
price<9.80 |
如果 price 是 9.00,則返回 true。 如果 price 是 9.90,則返回 false。 |
<= |
小於或等於 |
price<=9.80 |
如果 price 是 9.00,則返回 true。 如果 price 是 9.90,則返回 false。 |
> |
大於 |
price>9.80 |
如果 price 是 9.90,則返回 true。 如果 price 是 9.80,則返回 false。 |
>= |
大於或等於 |
price>=9.80 |
如果 price 是 9.90,則返回 true。 如果 price 是 9.70,則返回 false。 |
or |
或 |
price=9.80 or price=9.70 |
如果 price 是 9.80,則返回 true。 如果 price 是 9.50,則返回 false。 |
and |
與 |
price>9.00 and price<9.90 |
如果 price 是 9.80,則返回 true。 如果 price 是 8.50,則返回 false。 |
mod |
計算除法的餘數 |
5 mod 2 |
1 |
使用lxml
lxml是Python的一個第三方解析庫,支持HTML和XML解析,而且效率非常高,彌補了Python自帶的xml標準庫在XML解析方面的不足。
由於是第三方庫,所以在使用 lxml 之前需要先安裝:
pip install lxml
下面是一段示例代碼
# coding=utf-8
from lxml import etree
xml_data = '''
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
'''
# etree.HTML()可以接收str或者bytes類型數據,將其轉化成 Element 對象
html = etree.HTML(xml_data)
# 從文件加載 HTML
# html = etree.parse('test.html',etree.HTMLParser())
# lxml 會自動修 HTML ,查看一下 lxml 修正後的結果
print(etree.tostring(html, pretty_print=True).decode('utf-8'))
# 獲取 Learning XML 這本書的價格
ret = html.xpath('//title[text()="Learning XML"]/following::price/text()')[0] if len(
html.xpath('//title[text()="Learning XML"]/following::price/text()')) else None
print(ret)
程序運行結果:
<html>
<body><bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
</body>
</html>
39.95
更多lxml API:https://lxml.de/api/index.html