python3 [XPATH]常用筆記

import requests
from lxml import etree

req=requsets.get(url)
req.encoding='utf-8'
html=req.text
# html 是獲取到網頁文檔
html_x=etree.HTML(html)
res=html_x.xpath("xpath解析式")
# 具體 res 的數據類型 踩坑
# type of res is list res的類型是列表
# 獲取兄弟元素
/following-sibling::text() # get text of the next sibling
#eg:獲取標籤div,class爲fly-layui的下一個元素的文本
xpath_a = "//div[@class='flu-layui/following-sibling::text()']"
res=html_x.xpath(xpath_a) # 返回列表,節點內的所有文本

# 獲取節點的屬性,獲取id爲test-layer的img裏面的src
xpath_b="//img[@id='test-layer']/@src"
img_res=html_x.xpath(xpath_B) #返回列表,元素中爲src的屬性值,其他屬性依次類推,區別於文本text(),text不需要加@,屬性則不需要加括號*斜體樣式*

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章