基於python的-網頁解析方式(xpath)

原創

2020-07-06 04:33

# -*- coding:utf-8 -*-

"""
    1.網頁的解析方式
        1) xpath(簡單)
        2) 正則(最難)
        3) css(需要懂網頁的css)
        4) bs4(比xpath難一點點)

    2.xpath的基本用法
        1) 環境準備:火狐瀏覽器(版本不能太新)
        附件:firebug
            firexpath
        2) 基本操作
        //元素標籤名 :
        例如://div,查找網頁內的所有div

        //元素標籤名[@屬性名='具體內容']

        例如: //div[@class='box'],查找class爲box的div
        //元素標籤名[第幾個]
        例如: //div[@class='box'][2],查找符合條件的第2個div

        //元素1/元素2/元素3...
        例如: //ul/li/div/a/img,查找ul下的li下的div下的a下的img標籤

        //元素1/@屬性名
        例如: //ul/li/div/a/img/@src,查找ul下的li下的div下的a下的img標籤的src屬性

        //元素/text()
        例如: //a/text(),獲取a標籤之間的文本(一級文本)

        //元素//text()
        例如: //div[@class='box']//text(),獲取class爲div下的所有文本

        //元素[contains(@屬性名,'相關屬性值')]
        例如: //div[contains(@class,'zhangsan')],查找class中包含zhangsan的div

        //*[@屬性='值']
        例如: //*[@name='lisi'],查找所有name爲lisi的元素

"""

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發73-高效濾鏡/文字水印/圖形水印/圖片水印/yolo運算後的結果顯示到畫面中

一、前言視頻監控系統發展到今天，越來越智能，比如這些年流行的人臉識別、物體識別、煙感識別等，都是需要拿到圖片數據去做運算處理，然後將結果顯示到視頻畫面中，或者還有要求將結果保存到視頻錄像文件中，以便打開回放查看。顯示到畫面中一般有兩種方式

2024-05-10 14:33:24

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

藍橋2024年1月15屆STEMAC++中級真題第六題編程實現：密碼鎖提示信息：密碼鎖：由 n 個從左到右並排的圓環組成，每個圓環上都有 10 個數字（0~9），藍色框內爲密碼顯示區，每個圓環在密碼顯示區只能顯示一個數字，如圖所示。

2024-05-10 14:32:23

Pywinauto的幾個小坑

最近在使用pywinauto寫自動化時遇到幾個問題，總結一下備忘： 1. TextBox的輸入 TextBox的輸入一般使用pywinauto的 set_edit_text，但會出現一個問題：寫完後不生效，不像人工輸入後一樣生效。

2024-05-10 14:25:53

gin-admin-cli配置記錄

--dir value， -d value 生成結構體的項目目錄 --module value， -m value 生成結構體的模塊（如：RBAC） --module-path value 生成結構體的模塊路徑（默認值：internal/

2024-05-10 14:24:02

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

前言公衆號每月定期推廣和分享的C#/.NET/.NET Core優秀項目和框架（每週至少會推薦兩個優秀的項目和框架當然節假日除外），公衆號推文中有項目和框架的介紹、功能特點、使用方式以及部分功能截圖等（打不開或者打開GitHub很慢的同

2024-05-10 14:23:32

LLM生態下爬蟲程序的現狀與未來

最近出現一批與LLM有關的新的爬蟲框架，一類是爲LLM提供內容抓取解析的，比如 Jina Reader 和 FireCrawl ，可以將抓取的網頁解析爲markdown這樣的對LLM友好的內容，例如markdown，這類本質上還是傳統的爬蟲

2024-05-10 14:20:52

Java線程池核心知識詳解

　本文所說的“核心線程”、“非核心線程”是一個虛擬的概念，是爲了方便描述而虛擬出來的概念，在代碼中並沒有哪個線程被標記爲“核心線程”或“非核心線程”，所有線程都是一樣的，只是當線程池中的線程多於指定的核心線程數量時，會將多出來的線程銷燬掉，

2024-05-10 14:17:01

一個簡單的MD5加鹽

雖然都說MD5加密一下密碼比較好，但是如果密碼過於簡單，比如123456，經過MD5加密之後還是不安全，因爲別有用心的人可以使用彩虹表來撞庫得到密碼。因此爲了加大破解難度，需要給MD5算法加鹽。下面是一個簡單的加鹽算法。當然，我不是說加了

2024-05-10 14:17:01

《最新出爐》系列入門篇-Python+Playwright自動化測試-45-鼠標操作-下篇

1.簡介鼠標爲我們使用電腦提供了很多方便，我們看到的東西就可以將鼠標移動過去進行點擊就可以打開或者訪問內容，當頁面內容過長時，我們也可以使用鼠標滾輪來實現對整個頁面內容的查看，其實playwright也有鼠標操作的方法。上一篇文章中已經講

2024-05-10 14:16:11

前端技術選型時有用的網站

npm-compare.com 比如我們想比較 react-query和 swr，可以訪問 https://npm-compare.com/react-query,swr 查看結果，頁面提供了下載量，star 數量，lisense 等的

2024-05-10 14:16:11

apisix~jwt-auth插件

在網關開啓jwt-auth插件之後，你的網關就具有了jwt解析和校驗的功能，主要是校驗jwt token的有效性，包含過期時間和簽名等。 https://apisix.apache.org/docs/apisix/plugins/jwt-

2024-05-10 14:14:11

apisix~helm方式的部署到k8s

什麼是apisix Apache APISIX 是一個高性能、輕量級的開源 API 網關，基於 Nginx 和 OpenResty 構建。APISIX 提供了豐富的功能和靈活的配置，適用於構建現代的微服務架構和雲原生應用。以下是 Apac

2024-05-10 14:14:11

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

https://zhuanlan.zhihu.com/p/431335767 隨着物聯網技術的日新月異，未來物聯網的應用將越來越廣泛，但它同樣也會帶來大量安全漏洞。而當下IoT漏洞挖掘技術尚未完全成熟，許多人的信息安全意識不夠強，技術革新面

2024-05-10 14:07:40

firmeye - IoT固件漏洞挖掘工具

https://github.com/Vu1nT0tal/firmeye firmeye 是一個 IDA 插件，基於敏感函數參數回溯來輔助漏洞挖掘。我們知道，在固件漏洞挖掘中，從敏感/危險函數出發，尋找其參數來源，是一種很有效的漏洞挖掘方法

2024-05-10 14:07:40

[論文閱讀] 02.清華張超老師Fuzzing總結 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing

https://zhuanlan.zhihu.com/p/446308018 數據流敏感的漏洞挖掘方法Discover Vulnerabilities with Flow Sensitive FuzzingChao Zhang清華大學2nd

2024-05-10 14:07:40

24小時熱門文章

最新文章

最新評論文章