爬蟲產品開發(1)——主要功能和特色

原創

2020-06-24 02:44

1. 基於Nutch1.8,BS結構

2. 完全MapReduce化

3. 流程驅動，支持3種類型的流程自定義：

1) 網頁內容採集流程：封裝了Nutch的inject、generate、fetch、parse、updatedb等節點，對普通用戶將默認參數進行了調優，對“爬蟲專家”用戶，提供了Nutch所有高級的參數的界面設置入口。

圖1 網頁內容爬取流程定義

圖2 爬取流程實例管理

2) 模板解析流程：實現了定義最少的模板解析最多的網頁。

基於機器學習的網頁內容自動聚類
基於jsoup的解析模板定義

圖3 模板解析流程定義

圖4 爬取結果聚類之後定義解析模板

3) 爬取內容導出流程：如實現“圖片、視頻滿足一定大小”的多媒體文件導出。

4. 基於規則引擎的網頁內容過濾：對內容解析結果進行復雜過濾，支持常見的字符串函數和邏輯運算符。

圖5 內容過濾時使用規則引擎

5. 實時監控

圖6 流程運行實時監控

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

nutch-1.4在eclipse中運行

1.選中nutch所在eclipse中的工程，新建一個文件夾urls 2.選中urls文件夾，新建urls.txt（存放url，crawl的起點）。寫入url 3.修改nutch/conf中的nutch-site.xml。如下 4.

2020-06-21 17:54:58

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

淺談ElasticSearch架構以及集成

簡介 Elasticsearch是一個高度可擴展的開源的分佈式Restful全文搜索和分析引擎。它允許用戶快速的（近實時的）存儲、搜索和分析海量數據。它通常用作底層引擎技術，爲具有複雜搜索功能和要求的應用程序提供支持。以下是ES可用於的一

2021-01-30 09:20:30

Nutch介紹及視頻教程

視頻教程：http://pan.baidu.com/s/1hqyZDx6 Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。儘管Web搜索是漫遊Internet的

2020-07-02 14:10:47

Nutch2.2.1+MySQL在macOS上的安裝配置心得

這裏主要說幾個需要注意的點。 1、MySQL是官網下載的安裝版，安裝完成以後不要在終端裏面啓動或者停止MySQL，直接在系統設置裏面啓動或者關閉 2、nutch2.2.1裏面的maven倉庫無法訪問，請替換爲：https://ma

余烬岛游戏

2020-07-01 18:11:32

CentOS環境安裝Solr4.7.0+Apache Nutch 1.7 + IK2012中文分詞筆記

系統環境基於Java，本文不做講解 Solr4.7下載地址：http://archive.apache.org/dist/lucene/solr/4.7.0/ Nutch1.7下載地址：http://archive.apache.org/

2020-06-25 20:18:45

nutch v1.9源碼分析(1)——分析目標

以下主要分析一下nutch提供的各種tool，重點分析一下與爬取cycle相關的流程，也介紹一下其他tool，每個tool主要從如下幾個方面介紹: 1) 每個tool的功能，即職責。 2) 用戶視角的Comma

2020-06-24 02:44:14

nutch v1.9源碼分析(3)——nutch基本爬取流程

1 nutch基本爬取流程 nutch是大名鼎鼎的Doug Cutting發起的爬蟲項目，nutch孵化了現在大數據處理事實上的標準Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nut

2020-06-24 02:44:14

nutch v1.9源碼分析(2)——nutch bin和src目錄解析及編譯

1 nutch bin目錄結構圖1 nutch release包的目錄結構 1) bin目錄：主要含有2個可執行文件crawl和nutch腳本，其中crawl腳本只是nutch腳本的wrapper，提供了all

2020-06-24 02:44:03

Nutch學習筆記1 ---------Inject

1. Inject 功能介紹在Nutch中Inject是用來把文本格式的url列表注入到抓取數據庫中，一般是用來引導系統的初始化。其中文本格式的URL每一列包含一個url。同時inject裏面保留了兩個元數據。 nu

2020-06-21 17:40:21

[Nutch]Hadoop多機完全分佈式模式hadoop配置

1. 下載hadoop 使用如下命令： wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 使用如下命令解壓： t

2020-06-20 05:21:24

[Nutch]hadoop啓用回收站

目前hadoop在默認情況下是沒有啓用回收站的，如果文件被刪除是沒有辦法恢復的，所以我們需求啓用回收站，以便於恢復已經刪除的文件。 1. 用hadoop創建一個文件夾使用如下的命令在hadoop的文件系統裏面創建一個文件夾u

2020-06-20 05:21:24

雲計算之hadoop生態圈簡介

早在2011年9月份就開始用了3個月時間學習hadoop、hbase、hive、nutch等東西，但當時沒有明確的想法和充足的時間，後來就沒有繼續深入下去。有幸在今年春節之前的1個月的時間，做了hadoop、hbase相結合的簡單開發

2020-06-19 00:52:40

nutch on hadoop 遇到 ls: 無法訪問data/segments: 沒有那個文件或目錄

將nutch部署在hadoop上運行 bin/crawl hdfs://localhost:9000/user/hadoop/urls data http://localhost:8983/solr/ 1 在generator完成

2020-06-16 16:56:09

nutch + solr —— 搭建初探

一. 環境： apache-nutch-1.8 solr-4.7.0 二. nutch配置提示： 1. 配置 nutch-site.xml <property> <name>http.agent.name</name> <va

2020-06-16 16:56:09

24小時熱門文章

最新文章

最新評論文章