XPath--解析Html

原創

2020-02-21 01:58

導語：爬蟲爬取的界面，大致分爲靜態界面、ajax異步加載、動態界面。靜態界面直接獲取HTML對象，然後使用XPath獲取值

最有用的路徑表達式：

表達式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

一、獲取HTML對象

//import us.codecraft.webmagic.selector.Html;
Html html= page.getHtml();

二、常用列舉

//查詢所有id=‘ne_article_source’的節點的文本值
String source=page.getHtml().xpath("//*[@id='ne_article_source']/text()").get();

//查詢所有id=‘endText’下p節點的文本，查詢的是列表
List<String> contextList=page.getHtml().xpath("//*[@id='endText']/p/text()").all();

//查詢所有id='endText'下p包含的圖片的src列表
List<String> imgurlList=page.getHtml().xpath("//*[@id='endText']/p/img/@src").all();

//查詢所有id='endText'下p包含的圖片對象列表
List<String> imgurlList=page.getHtml().xpath("//*[@id='endText']/p/img").all();

三、實際應用

　　1、直接使用瀏覽器調試工具，獲取元素XPath

　　　 Google:http://blog.csdn.net/li6727975/article/details/46126079

　　　 FireFox：http://jingyan.baidu.com/article/0a52e3f4345772bf62ed72b1.html

　　　 360:F12-->Elements-->選中元素，右鍵“Copy XPath”

　　2、學習地址：http://www.w3school.com.cn/xpath/xpath_syntax.asp

發佈了48 篇原創文章 · 獲贊 73 · 訪問量 14萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「Java開發指南」如何用MyEclipse搭建GWT 2.1和Spring？（二）

本教程將指導您如何生成一個可運行的Google Web Toolkit (GWT) 2.1和Spring應用程序，該應用程序爲域模型實現了CRUD應用程序模式。在本教程中，您將學習如何：安裝Google Eclipse插件爲GWT配置

2024-05-17 12:21:26

Java ThreadPoolShutdown

CountDownLatch 是 Java 中的一個同步工具類，它允許一個或多個線程等待一系列指定操作執行完成。CountDownLatch 的主要方法有兩個：await() 方法等待 countDown 方法被調用指定的次數後繼續執行，c

2024-05-17 02:06:32

通過MVEL表達式和Apache Chain職責鏈模式解耦MQ消息處理節點的實踐應用

導讀本文主要講解了MVEL表達式和責任鏈設計模式相結合一起的消息處理解決方案設計、解耦消息處理節點以及方便代碼維護擴展。通過“訂單拆單消息”的接入作爲具體實踐案例，簡要闡述了MVEL表達式和Apache Chain職責鏈設計模式應用場景。

2024-05-16 23:56:24

Spring @EnableXxx註解的使用理解

@EnableXxx註解 Spring有很多@EnableXxx這種形式的註解，類似於可以一鍵打開某項功能，相當於暴露給用戶的一種便捷的配置API，例如 @EnableAsync 激活異步執行能力，@EnableTransactionMan

2024-05-16 23:48:06

java將list結果分成3份執行原創

Java將List結果分成3份執行在Java編程中，有時候我們需要將一個List集合中的元素分成幾部分進行處理。這種情況下，我們可以使用Java的相關類庫和API來實現這一需求。在本文中，我們將介紹如何使用Java將List結果分成3份執

2024-05-16 02:09:55

OSS_PIPE：Rust編寫的大規模文件遷移工具

‍ 隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場景。編寫 oss_pipe 的初衷 •同類產品面臨的問題 •rust 語

京東雲開發者

2024-05-15 23:59:27

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

Spring cloud gateway入門

微服務Gateway 微服務網關部署在前端Nginx網關和後端微服務之間，Nginx一般充當流量網關，而微服務網關屬於一種業務型網關，微服務網關層爲後端的微服務羣組提供統一的接入地址，其核心功能是統一做服務路由，在路由基礎上還可以實現一

2024-05-15 11:50:15

JDBC連接openGauss6.0和PostgreSQL16.2性能對比

本文分享自華爲雲社區《JDBC連接openGauss6.0和PostgreSQL16.2性能對比》，作者： Gauss松鼠會小助手。 PostgreSQL vs openGauss 01 前置準備安裝JDK：詳細安裝步驟請問度娘，輸

2024-05-14 11:00:08

爲什麼阿里不建議用excutors創建線程池

1 前言：大家都知道，阿里規範中有一條是不允許用excutors去創建線程池，而是採用ThreadPoolExecutor的原生方式去創建。很早就聽過所過這種說法，但是一直都沒去搞清楚是爲什麼，今天就查閱資料去了解了這

2024-05-14 02:07:06

Java遊戲服務器3

1)編碼消息長度(short int-->2個字節) + 消息編號(short int--》2個字節) + 消息體 2)Protobuf協議文檔 (1)syntax="proto3"; (2)命名格式

2024-05-14 02:04:28

Android內存管理機制官方詳解文檔

很早之前寫過一篇《Android內存管理機制詳解》點擊量已7萬+，現把Google官方文檔整理輸出一下，供各位參考。一、內存管理概覽 Android 運行時 (ART) 和 Dalvik 虛擬機使用分頁和內存映射來管理內存。這意味着應用

2024-05-14 00:37:42

OSS_PIPE：Rust編寫的大規模文件遷移工具| 京東雲技術團隊

文盤rust 好久沒有更新了。這段時間筆者用rust寫了個小東西，跟各位分享一下背景隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場

2024-05-13 23:59:27

面試官：說說你對序列化的理解

本文主要內容背景在Java語言中，程序運行的時候，會產生很多對象，而對象信息也只是在程序運行的時候纔在內存中保持其狀態，一旦程序停止，內存釋放，對象也就不存在了。怎麼能讓對象永久的保存下來呢？--------對象序列化。何

2024-05-13 22:58:28

JAVA基礎之常用類（一）String

綱要 String StringBuffer 基礎類型對應的8個包裝類日期相關類數字相關類 Random Enum 1. 理解String類的存儲原理 String類是不可變類，也就是說String對象聲明後，將不可修改。 S

2024-05-13 22:07:29

24小時熱門文章

最新文章

最新評論文章