.net下功能強大的HTML解析庫HtmlAgilityPack，數據抓取必備

原創

2023-11-30 14:23

.net下功能強大的HTML解析庫HtmlAgilityPack，數據抓取必備
 
HtmlAgilityPack是一個.NET平臺下的HTML解析庫，它可以將HTML文本轉換爲DOM文檔對象，方便我們對HTML文本進行操作和分析。HtmlAgilityPack支持XPath語法，可以通過XPath表達式來獲取DOM節點，同時還提供了一些方便的API，可以實現HTML文本的解析、修改、生成等功能。本文將詳細介紹HtmlAgilityPack的使用及使用方法。

一、HtmlAgilityPack的安裝

HtmlAgilityPack是一個NuGet包，可以通過Visual Studio的NuGet包管理器來安裝。具體步驟如下：

打開Visual Studio，打開要安裝HtmlAgilityPack的項目。
在“解決方案資源管理器”中右鍵單擊項目，選擇“管理NuGet程序包”。
在“NuGet程序包管理器”中搜索“HtmlAgilityPack”，選擇“安裝”。
等待安裝完成。
安裝完成後，就可以在項目中使用HtmlAgilityPack了。

二、HtmlAgilityPack的使用

加載HTML文本
使用HtmlAgilityPack解析HTML文本的第一步是將HTML文本加載到一個HtmlDocument對象中。可以通過以下代碼來實現：

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);
其中，htmlText是要解析的HTML文本。LoadHtml方法會將HTML文本解析成一個DOM文檔對象，並存儲在doc對象中。

獲取DOM節點
HtmlAgilityPack提供了一些方法來獲取DOM節點，例如GetElementById、GetElementsByTagName、SelectSingleNode、SelectNodes等。這些方法都接受一個XPath表達式作爲參數，用來指定要獲取的節點。以下是一些示例代碼：

// 獲取id爲"content"的節點
HtmlNode contentNode = doc.GetElementById("content");

// 獲取所有的a標籤
HtmlNodeCollection aNodes = doc.DocumentNode.SelectNodes("//a");

// 獲取第一個p標籤
HtmlNode pNode = doc.DocumentNode.SelectSingleNode("//p");
其中，XPath表達式的語法與XML的XPath語法相同。在這裏不再詳細介紹。

修改DOM節點
HtmlAgilityPack提供了一些方法來修改DOM節點，例如SetAttributeValue、InnerHtml、OuterHtml等。以下是一些示例代碼：

// 修改id爲"content"的節點的class屬性
contentNode.SetAttributeValue("class", "new-class");

// 修改第一個p標籤的內容
pNode.InnerHtml = "這是新的內容";

// 修改第一個a標籤的href屬性
HtmlNode aNode = aNodes[0];
aNode.SetAttributeValue("href", "http://www.example.com");
生成HTML文本
HtmlAgilityPack還可以將DOM文檔對象轉換爲HTML文本。可以通過以下代碼來實現：

string newHtmlText = doc.DocumentNode.OuterHtml;
其中，OuterHtml屬性返回DOM文檔對象的HTML文本表示。

三、HtmlAgilityPack的功能實例

下面將通過一些具體的實例來演示HtmlAgilityPack的使用方法。

獲取頁面標題
以下代碼演示瞭如何獲取頁面標題：

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNode titleNode = doc.DocumentNode.SelectSingleNode("//title");
string title = titleNode.InnerHtml;
其中，htmlText是要解析的HTML文本。首先，將HTML文本加載到一個HtmlDocument對象中。然後，通過XPath表達式“//title”獲取頁面標題節點。最後，通過InnerHtml屬性獲取標題的內容。

獲取頁面中的所有圖片
以下代碼演示瞭如何獲取頁面中的所有圖片：

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection imgNodes = doc.DocumentNode.SelectNodes("//img");
foreach (HtmlNode imgNode in imgNodes)
{
    string src = imgNode.GetAttributeValue("src", "");
    Console.WriteLine(src);
}
首先，將HTML文本加載到一個HtmlDocument對象中。然後，通過XPath表達式“//img”獲取所有圖片節點。最後，遍歷所有圖片節點，獲取每個節點的src屬性。

獲取頁面中的所有鏈接
以下代碼演示瞭如何獲取頁面中的所有鏈接：

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection aNodes = doc.DocumentNode.SelectNodes("//a");
foreach (HtmlNode aNode in aNodes)
{
    string href = aNode.GetAttributeValue("href", "");
    Console.WriteLine(href);
}
首先，將HTML文本加載到一個HtmlDocument對象中。然後，通過XPath表達式“//a”獲取所有鏈接節點。最後，遍歷所有鏈接節點，獲取每個節點的href屬性。

修改頁面中的所有鏈接
以下代碼演示瞭如何將頁面中的所有鏈接修改爲指定的鏈接：

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection aNodes = doc.DocumentNode.SelectNodes("//a");
foreach (HtmlNode aNode in aNodes)
{
    aNode.SetAttributeValue("href", "http://www.example.com");
}

string newHtmlText = doc.DocumentNode.OuterHtml;
首先，將HTML文本加載到一個HtmlDocument對象中。然後，通過XPath表達式“//a”獲取所有鏈接節點。最後，遍歷所有鏈接節點，將它們的href屬性修改爲指定的鏈接。最後，通過OuterHtml屬性將修改後的DOM文檔對象轉換爲HTML文本。

本文介紹了HtmlAgilityPack的使用及使用方法。HtmlAgilityPack是一個功能強大、易用性高的HTML解析庫，可以方便地對HTML文本進行操作和分析。通過本文的介紹，讀者可以瞭解HtmlAgilityPack的基本用法，並可以根據需要自行擴展。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

.net下功能強大的HTML解析庫HtmlAgilityPack，數據抓取必備

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

【轉】[C#] WebAPI 防止併發調用二（冥等性）

爬蟲兩種繞過5s盾的方法

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

c# 窗體自適應

PHP常用環境套件

jquery+向上滾動

刪除sqlserver 活動連接

PaddleSharp的入門級使用記錄【在WebApi裏使用】（轉） PaddleSharp的入門級使用記錄【在WebApi裏使用】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結