使用HAP抓取HTML網頁內容實例

原創

2018-09-02 23:52

前言

最近有個任務需要把Functx XQuery Functions(http://www.xqueryfunctions.com/)上面所有的functx相關的function defintion全部down下來，存到本地文件中，這是個簡單的活兒，卻是個枯燥的活兒。鑑於本人對於枯燥乏味事情的極端厭惡，我準備編程來解析這些網頁。這篇帖子就準備記錄解決這個任務的過程。

正文

1、簡單的搜索了下我找到了HTML Agility Pack（http://htmlagilitypack.codeplex.com/），這邊有一篇中文繁體的tutorial：http://msdn.microsoft.com/zh-tw/ee787055.aspx；

2、我剛開始學習使用HAP的時候，有個錯誤的理解認爲可以根據Chrome的“審查元素”功能來找到對應node的xpath，然後用doc.DocumentNode.SelectNodes方法來獲取到相應的node，事實證明這樣是不行的，關於爲什麼，這邊有篇很好的討論：http://stackoverflow.com/questions/15826875/html-agility-pack-using-xpath-to-get-a-single-node-object-reference-not-set；

3、好吧，簡單來說這個任務我搞定了，詳細的源文件請見：https://github.com/edychang/mytoolkits/blob/master/applications/xquery_function_parser/FunctxParser/Program.cs

4、話說C#真的是相當NB啊，不看任何書的前提下兩天就能搞定一個C#程序說明這個語言學習曲線很平滑啊。

5、使用HAP的關鍵在於XPath的運用。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

var and　ｏｂｊｅｃｔ

object 是把一個變量直接聲明成object類型在 C# 的統一類型系統中，所有類型（預定義類型、用戶定義類型、引用類型和值類型）都是直接或間接從 Object 繼承的。可以將任何類型的值賦給 object 類型的變量。

该用户懒的设置

2020-07-08 07:54:47

C#中Abstract 、Virtual和Override的使用 C#中Abstract 、Virtual和Override的使用

C#中Abstract 、Virtual和Override的使用 1. abstract 修飾符指示所修飾的內容缺少實現或未完全實現。 abstract 修飾符可用於類、方法、屬性、索引器和事件。在類聲明中使用abstract

2021-03-22 18:35:30

快速搞懂.NET 5/.NET Core應用程序的發佈部署快速搞懂.NET 5/.NET Core應用程序的發佈部署

摘自：https://www.cnblogs.com/tianqing/p/14403255.html 快速搞懂.NET 5/.NET Core應用程序的發佈部署 .NET Framework時代，.NET 應用程序大多直接部署運行

2021-03-22 18:35:21

C#中" 並非所有的代碼路徑都返回值" ---FOR

方法聲明中有返回類型定義,而方法中有一種執行方式沒有返回值. 例如下面的方法,當var爲假時方法沒有返回值,就會在編譯時報錯"並非所有的代碼路徑都返回值" public string GetSome(boo

2020-07-08 12:18:51

關於webform的簡單的基礎操作 2.學會開發（四）

前面說了關於一些增刪的操作，今天就給大家來講一下修改和反填首先在DAL層中去寫一些方法其次是在BLL層新建一個修改web窗體，再從添加窗體中複製代碼，到修改窗體改一下按鈕的文本，再看一下效果點擊修改按鈕進入後臺

2020-07-08 11:50:48

關於webform的簡單的基礎操作 2.學會開發（一）

.net的B/S架構開發主要是MVC和webform的開發，因爲WebForm是微軟開發的一款產品，它將用戶的請求和響應都封裝爲控件。讓開發者認爲自己是在操作一個windows界面（和winform也是差不多的）。極大地提高

2020-07-08 11:50:48

關於webform的簡單的基礎操作 2.學會開發（二）

下面來講一下關於webform的顯示，首先先做DAL層中添加顯示方法其次是BLL層的接下來就在UI層中新建一個web窗體，然後拉一個叫gridview的一個控件效果如下：點擊編輯列進行編輯配置分頁，把右邊的

2020-07-08 11:50:48

關於webform的簡單的基礎操作 1.瞭解控件(二)

上篇文章因爲CSDN本身設置了字數權限，導致我接下來的東西沒有辦法上傳，現在我繼續寫這是單選框更改後的樣子可以對他加一個樣式，讓他變成橫向的，找到他所對應的位置在後面加上RepeatDirection=“”，他會有兩個屬性，

2020-07-08 11:50:48

C# 字符串，數組，日期常遇到的處理方法（持續更新）

數組和字符串互轉方法： string str = "1,2,3,4,5,6,7"; string[] strArray = str.Split(','); //字符串轉數組 str = string.Empty; str = st

2020-07-08 11:00:43

winform中怎麼讓滾動條總是顯示在最後插入文字的地方

this.richTextBox2.SelectionStart=this.richTextBox2.Text.Length; this.richTextBox2.ScrollToCaret();

2020-07-08 10:40:19

C#序列化對象轉爲爲XML格式字符串

實習公司原來的左側菜單是通過js進行ajax請求一個xml文件得到一個xml對象，然後拼接html文件，現在需要從數據庫取數據生成xml，因爲保密關係，太詳細的不能放出來，簡單說下流程 1、C#後臺執行SQL，得到DataTable對象

请叫我算术嘉

2020-07-08 10:17:16

C#隨機生成驗證碼圖

在書上學到繪圖驗證碼示例，記錄一下 //生成驗證碼 public string CheckCode() { int number; char code;

2020-07-08 09:47:16

我的C# 第一章

第一學期的C#這本課本學完了。好好的複習、總結一遍吧。感覺C#比Java好學更好玩一些，基本上可以跟的上課程的腳步，每一節課的內容都掌握的很可以。但是最致命的就是脫離不了課本，或許是英語差的問題吧，代碼、代碼、代碼.....我的噩夢

ethan永不言弃

2020-07-08 09:21:00

JAVA 與C# 的AES的加密函數、解密函數,加密解密結果一致

因爲開發需要用到java以及c#之間的數據傳輸，所以使用到AES的加密函數、解密函數。親測可用，分享給大家： java代碼： package my; import javax.crypto.*; import javax.crypto.

2020-07-08 08:33:13

【C# Lab】基於Winform的GPA計算程序——開發小結

【C# Lab】基於Winform的GPA計算程序——開發小結前言1. 項目任務目標與開發流程1.1 任務目標1.2 開發流程2. 整體架構3. 關鍵部分的代碼設計(DataGridView_Operate)3.1 DataGri

2020-07-08 08:23:20

24小時熱門文章

最新文章

最新評論文章