【數據提取】xml html數據提取—— xpath

1 xml & html

XML 指可擴展標記語言(eXtensible Markup Language),被設計用來傳輸和存儲數據。
HTML 超文本標記語言(HyperText Markup Language)是一種用於創建網頁的標準標記語言。

1.1 html和xml的區別

數據格式 描述 設計目標
XML 可擴展標記語言(eXtensible Markup Language) 被設計爲傳輸和存儲數據,其焦點是數據的內容
HTML 超文本標記語言(HyperText Markup Language) 顯示數據

1.2 xml的樹結構

<bookstore>
	<book category="COOKING">
		<title lang="en">Everyday Italian</title>
		<author>Giada De Laurentiis</author>
		<year>2005</year>
		<price>30.00</price>
	</book>
	<book category="CHILDREN">
		<title lang="en">Harry Potter</title>
		<author>J K. Rowling</author>
		<year>2005</year>
		<price>29.99</price> 
	</book>
	<book category="WEB">
		<title lang="en">Learning XML</title>
		<author>Erik T. Ray</author>
		<year>2003</year>
		<price>39.95</price> 
	</book>
</bookstore>

上面的xml內容可以表示爲下面的樹結構
在這裏插入圖片描述
上面的這種結構關係在xpath被進一步細化

2 xpath & lxml

lxml是一款高性能的 Python HTML/XML 解析器,可以利用XPath,來快速的定位特定元素以及獲取節點信息

XPath (XML Path Language) 是一門在 HTML\XML 文檔中查找信息的語言,可用來在 HTML\XML 文檔中對元素和屬性進行遍歷。

2.1 xpath的節點關係

xpath中的節點是什麼
每個XML的標籤我們都稱之爲節點,其中最頂層的節點稱爲根節點。

xpath中節點選擇的工具
Chrome插件 —— XPath Helper
Firefox插件 —— XPath Checker
注意: 這些工具是用來學習xpath語法的,都是從elements中匹配數據,elements中的數據和url地址對應的響應不相同,所以在代碼中,不建議使用這些工具進行數據的提取

2.2 xpath語法

例子中使用以下的XML 文檔

<bookstore>
	<book>
		<title lang="eng">Harry Potter</title>
		<price>29.99</price>
	</book>
	<book>
		<title lang="eng">Learning XML</title>
		<price>39.95</price>
	</book>
</bookstore>
2.2.1 選取節點

XPath 使用路徑表達式來選取 XML 文檔中的節點或者節點集。這些路徑表達式和我們在常規的電腦文件系統中看到的表達式非常相似。
使用chrome插件選擇標籤時候,選中時,選中的標籤會添加屬性class="xh-highlight"
表達式說明

表達式 描述
nodename 選中該元素
/ 從根節點選取、或者是元素和元素間的過渡
// 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置
. 選取當前節點
選取當前節點的父節點
@ 選取屬性
text() 選取文本

例子:路徑表達式以及表達式的結果

路徑表達式 結果
bookstore 選擇bookstore元素
/bookstore 選取根元素 bookstore。註釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑
bookstore/book 選取屬於 bookstore 的子元素的所有 book 元素
//book 選取所有 book 子元素,而不管它們在文檔中的位置
bookstore//book 選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置
//book/title/@lang 選擇所有的book下面的title中的lang屬性的值
//book/title/text() 選擇所有的book下面的title的文本
2.2.2 查找特定的節點
路徑表達式 結果
//title[@lang=“eng”] 選擇lang屬性值爲eng的所有title元素
/bookstore/book[1] 選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()] 選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1] 選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()>1] 選擇bookstore下面的book元素,從第二個開始選擇
//book/title[text()=‘Harry Potter’] 選擇所有book下的title元素,僅僅選擇文本爲Harry Potter的title元素
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。

注意點: 在xpath中,第一個元素的位置是1,最後一個元素的位置是last(),倒數第二個是last()-1

2.2.3 選取未知節點

XPath 通配符可用來選取未知的 XML 元素。

通配符 描述
* 匹配任何元素節點
@* 匹配任何屬性節點
node() 匹配任何類型的節點

例子:路徑表達式及結果

路徑表達式 結果
/bookstore/* 選取 bookstore 元素的所有子元素
//* 選取文檔中的所有元素
//title[@*] 選取所有帶有屬性的 title 元素
2.2.4 選取若干路徑

通過在路徑表達式中使用“|”運算符,您可以選取若干個路徑。

例子:路徑表達式及結果:

路徑表達式 結果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素
//title | //price 選取文檔中的所有 title 和 price 元素
/bookstore/book/title | //price 選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章