問讀nutch 1.2 解析html的插件 HtmlParser插件

原創

2018-08-25 03:05

分爲以下幾個部分：

1 解析成Dom 通過sax，

DocumentFragment root;

//把網頁內容content轉化byte
byte[] contentInOctets = content.getContent();

//SAX解析抽取外部信息
InputSource input = new InputSource(new ByteArrayInputStream(
contentInOctets));

//設置編碼

input.setEncoding(encoding);

root = parse(input);

2 通過root解析出meta，title等。

3 //解析成功標記
        ParseStatus status = new ParseStatus(ParseStatus.SUCCESS);
        if (metaTags.getRefresh()) {
            status.setMinorCode(ParseStatus.SUCCESS_REDIRECT);
            status.setArgs(new String[] { metaTags.getRefreshHref().toString(),
                    Integer.toString(metaTags.getRefreshTime()) });
        }
        //解析ParseData
        ParseData parseData = new ParseData(status, title, outlinks, content
                .getMetadata(), metadata);

        ParseResult parseResult = ParseResult.createParseResult(content
                .getUrl(), new ParseImpl(text, parseData));

4 // 在解析時，運行過濾器
        ParseResult filteredParse = this.htmlParseFilters.filter(content,
                parseResult, metaTags, root);
        if (metaTags.getNoCache()) { // not okay to cache
            for (Map.Entry<org.apache.hadoop.io.Text, Parse> entry : filteredParse)
                entry.getValue().getData().getParseMeta().set(
                        Nutch.CACHING_FORBIDDEN_KEY, cachingPolicy);
        }

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Java併發(二十五)----異步模式之生產者/消費者 Java併發(二十二)----同步模式之保護性暫停

1. 定義要點與Java併發(二十二)----同步模式之保護性暫停中的保護性暫停中的 GuardObject 不同，不需要產生結果和消費結果的線程一一對應這樣的好處是消費隊列可以用來平衡生產和消費的線程資源生產者僅負責產

2024-04-18 14:29:54

跨網段通信實戰（支持靜態路由表的家用路由）

具體情況如下：光貓：撥號上網和分配ip，4個lan口相當於最頂層的入戶設備， 192.168.1.0/24 接光貓的路由器A：WAN口192.168.1.18，LAN口192.168.0.0/24 接光貓的路由器B：WAN口192.1

漫漫人生路總會錯幾步

2024-04-18 14:27:44

.NET開源強大、易於使用的緩存框架 - FusionCache

前言緩存在程序中扮演着提升性能、降低資源消耗、改善用戶體驗等重要角色，是構建高效、可伸縮、穩定的系統不可或缺的重要組成部分。今天大姚給大家分享一款.NET開源（基於MIT license）、強大、易於使用的緩存框架：FusionCache

2024-04-18 14:22:04

開源在線表單工具 HeyForm 使用教程

HeyForm 是一個非常出色的開源在線表單工具，可以通過直觀的拖拽式編輯器，快速構建出美觀實用的表單。 HeyForm 的功能非常豐富：支持豐富的輸入類型，從基礎的文本、數字到高級的圖片選擇、日期選擇、文件上傳等，一應俱全。通過條

米開朗基楊

2024-04-18 14:21:34

面試官：來說說vue3是怎麼處理內置的v-for、v-model等指令？

前言最近有粉絲找到我，說被面試官給問懵了。粉絲：面試官上來就問“一個vue文件是如何渲染成瀏覽器上面的真實DOM？”，當時還挺竊喜這題真簡單。就簡單說了一下先是編譯成render函數、然後根據render函數生成虛擬DOM，最後就是

你假裝沒察覺

2024-04-18 14:21:23

Win11 22H2跳過開機微軟賬戶登錄的方法

Win11 22H2跳過開機微軟賬戶登錄的方法進入第一個選擇語言界面或者聯網界面，按下Shift+F10或FN+Shift+F10，輸入OOBE\BypassNRO.cmd並回車，此時系統會自動重啓，重啓後就可以和以前一樣離線配置。

鄭州-在路上

2024-04-18 14:20:33

Gin實戰

os: wsl ubuntu18.04 mysql sudo apt-get install mysql-server 首先需要改變MySQL的配置,執行sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf

張博的博客

2024-04-18 14:19:53

大模型訓練相關技術

多輪對話數據組織格式直接構造包括多輪對話中所有機器人回覆內容的標籤，【充分地利用了所有機器人的回覆信息】，同時【也不存在拆重複計算，非常高效】。 inputs = <user1> <assistant1> <user2> <assista

張博的博客

2024-04-18 14:19:53

英語發音t

t前後都輔音時候不發音. fasten hasten apostle castle whistle listen often 結尾時候不發音 ballet

張博的博客

2024-04-18 14:19:53

xxx，一個神奇的 Python 庫

前幾天，我在《技術週刊的轉變：如何平衡熱愛與現實？》一文裏寫過國內 Python 自媒體圈在近幾年的兩個現象（僅個人觀感，無科學數據支撐）： Python 廣告投放出現斷崖式萎縮 Python 大號出現很多改名/轉行本文想繼續分享我觀

豌豆花下貓

2024-04-18 14:19:23

【Nano Framework ESP32篇】WS2812 彩色燈帶實驗

地球人皆知，許多物聯網教程作者的心中都深愛着一燈大師，所以第一個例程總喜歡點燈，高級一點的會來個“一閃一閃亮晶晶”。老周今天要扯的也是和燈有關的，但不單純地點個燈，那樣實在不好玩，缺乏樂趣。老周打算舞個龍燈，哦不，是用 LED 彩色燈帶給夥

2024-04-18 14:16:53

CEIWEI CommMonitor 串口監控精靈用戶手冊

CEIWEI CommMonitor 串口監控精靈是用於RS232 / RS422 / RS485端口監控的程序軟件。CommMonitor監控記錄和分析系統中的所有串行端口活動；追蹤應用程序或驅動程序開發，串行設備測試和優化等過程中

2024-04-18 14:13:32

常見問題——VS調試出現：未加載mscorlib.pdb 的頁面

問題： VS在調試程序的時間，出現單獨一個報錯頁面：未加載mscorlib.pdb mscorlib.pdb 包含查找模塊mscorlib.dll的源文件所需的調試信息解決方法：點擊調試=>選項=>調試=>勾選：常規點擊啓用我的代碼=》

2024-04-18 14:10:02

物聯網瀏覽器(IoTBrowser)-整合機器學習yolo框架實現車牌識別

最近一段時間在研究AI技術在.Net平臺的使用，目前AI絕大部分是使用Python開發，偶然一次在頭條看到一篇ML.NET的介紹，是Net平臺下開放源代碼的跨平臺機器學習框架。ML.NET詳細介紹 https://dotnet.micros

2024-04-18 14:09:32

一篇文章帶你領悟Frida的精髓（基於安卓8.1）

https://www.freebuf.com/articles/system/190565.html 前言前陣子受《Xposed模塊編寫的那些事》這篇文章的幫助很大，感覺有必要寫一篇文章來回饋freebuf社區。現在最火爆的又是frid

2024-04-18 14:06:12

24小時熱門文章

.NET開源強大、易於使用的緩存框架 - FusionCache

最新文章

最新評論文章