python xpath提取信息

原創

2020-02-25 09:38

常用的使用xpath的場景：

1.python lxml模塊

from lxml import etree


content = '''
    <html>
        <head>
            <title>test</title>
        </head>
        <body>
            <div>xpath提取信息</div>
        </body>
    </html>
'''
html = etree.HTML(content)
text = html.xpath('//title/text()')    # test

2.scrapy框架response對象的xpath方法

def parse(self, response):
    response.xpath('//title/text()').extract_first()

xpath常用定位：

1.定位某節點之後兄弟節點：
//div[@class='name']/following-sibling::div

2.定位某節點之前兄弟節點：
//div[@class='name']/preceding-sibling::div

3.定位包含指定值的節點
//div[contains(text(), 'value')]

4.定位指定text值的節點
//div[text()='value']

5.定位以指定值開始的節點
//div[starts-with(text(), '容')]

6.提取某節點和子節點的文本
string(//div[@class='price'])

7.xpath位運算
//dt[contains(text(), '容') and contains(text(), '積') and contains(text(), '率')]

8.定位父節點
//div[@name='name']/..

9.提取節點某屬性
//title/@href

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python xpath提取信息

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

一文搞懂 Spring 循環依賴

抖音面試：說說延遲任務的調度算法？

錯誤: 找不到或無法加載主類 HelloWorld.class java程序猿的第一個bug

requests驗證代理

scrapy源碼閱讀-UserAgentMiddleware

scrapy源碼解讀-RetryMiddleware

Java對象構造和初始化

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結