爬蟲產品開發(2)——產品範圍

原創

2020-02-22 06:26

做什麼？

1. 做“爬”，對Nutch的inject、generate、fetch、parse、updatedb這個閉環爬取流程進行封裝，採用拖拽式流程定義可視化監控提高易用性。

2. 做“內容解析”，將非結構化的網頁內容解析成結構化，提取方式適用性要廣，適合不同類型的網頁。

3. 做“內容過濾”，可按照字段過濾，採用規則引擎實現複雜的內容過濾。

不做什麼？

1. 不做“全文檢索”，Nutch IndexWriter系列插件不做集成和擴展，不支持與Solr的集成。

2. 不做“索引去重”

3. 不嘗試解決所有類型MIME的解析

尚未實現的

1. 對錶格內容的解析，有如下複雜性需要考慮——實現表格的方式多樣，<table>標籤實現的解析難度不大，css+div實現的表格難度大一些，可以嘗試採用：

a) “內嵌css解析器”+“圖像識別”的方式，網頁內容轉化成圖片，使用機器學習識別出哪部分最可能是“表格”，然後再提取表格部分的dom節點。

b) 自學習方式，採集大量的網頁人工標註，然後訓練分類器。

2. 網頁中嵌入瀏覽器(可考慮ActiveX/Applet)，採用框選式的選取dom節點，定義解析規則。

發佈了29 篇原創文章 · 獲贊 14 · 訪問量 6萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

直播概要：隨着計算機的蓬勃發展，互聯網進入大數據和人工智能時代，爲了解決信息過載和長尾商品，推薦系統成爲唯一選擇，而面對不同的業務場景，爲了解決業務痛點，會根據不同的場景特點尋找不同的方法和手段來解決推薦中實際遇到的問題。在智慧家庭領域，

InfoQ 中文站

2021-12-21 10:54:01

一個避免技術債的無代碼微服務應用商店

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-20 10:53:54

程序員如何建立第二大腦

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:43:54

低代碼平臺 Airtable 再獲 7.35 億美元的融資，一年內估值翻倍

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-16 15:23:51

上市後首個大動作：GitLab 收購 Opstrace 擴展其 DevOps 平臺

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-16 15:03:49

數千個數據庫、遍佈全國的物理機，京東物流全量上雲實錄 | 卓越技術團隊訪談錄

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1}},{"type":"blockquote","content":[{"type":"pa

2021-12-16 10:38:55

“摺疊”了價格之後，OPPO Find N能讓摺疊屏手機更大衆化嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-16 06:03:50

替代 Kafka？Pinterest 推出高效可擴展雲原生系統 MemQ

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Pinterest Engineering

2021-12-15 17:03:56

OPPO發佈首顆自研NPU芯片：歷時3年研發，算力比肩蘋果

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-15 08:33:58

中國卓越技術團隊訪談錄（2021年第六季）

封面故事：《從零到一，京東物流全量上雲實錄》上雲不是將物理機搬到雲上，而是將整個系統和應用打造成適合雲的狀態，這樣才能從上雲中獲得最大的效益。“如果企業有能力、有資源，上雲越快越好。” 重磅訪談：《從混合包開發到100%純鴻蒙應

InfoQ 中文站

2021-12-15 08:03:56

微信整改地方號；阿里高層大地震；工信部下架違規 App；百度入局元宇宙；Android 遊戲將登陸 Windows；TIOBE 發佈 12 月榜單｜架構週報

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-13 11:54:42

netty系列之:性能爲王!創建多路複用http2服務器

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

程序那些事

2021-12-09 12:34:02

誰也不服，Cloudflare 和Fastly 開啓性能之爭

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-09 12:33:52

Oracle 大佬離職，怒噴 MySQL “糟糕的數據庫”

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 19:58:57

24小時熱門文章

最新文章

最新評論文章