Nutch入門白話版

原創

键盘上的孤舞者

2020-02-25 14:34

不得不說，Nutch的入門官方文檔寫的真不清晰明瞭。害的我按照官方文檔折騰半天。

Nutch現在已經到了2.2.2版本，而且版本1.x已經更新到了1.8，這裏以1.7爲例，1.8中的部分命令行工具的API有變，入門時不是很容易。

#安轉運行Nutch#

- 下載安裝Nutch
- 在${NUTCH_HOME}下，mkdir urls
- cd urls
- touch seed.txt
- edit seed.txt ,write :http://nutch.apache.org
- edit ${NUTCH_HOME}/conf/regex.urlfilter.txt
- replace

```
'#accept anything else
+.

```

with

```
+^http://([a-z0-9]*\.)*nutch.apache.org/

```

- 爬取網頁： bin/nutch crawl urls -dir crawl -depth 3 -topN 5
注意：此命令1.8版本有改變

#安裝Solr#

- 下載安裝Solr,我使用的時最新版的4.8
- cd ${SOLR_HOME}/example
- java -jar start.jar
- 驗證安裝：http://localhost:8983/solr/

#Nutch和Solr集成#
這裏要注意：文檔說了那麼多其實只有兩件事：
+ 使用${NUTCH_HOME}/conf/schema-solr4.xml 替換掉${SOLR_HOME}/example/solr/collection1/conf/schema.xml ,並將schema-solr4.xml改名爲schema.xml
+ 在schema.xml中第351行後面(其實只要添加在types標籤中即可)添加：<field name="_version_" type="long" indexed="true" stored="true"/>

到這裏集成就完成了。現在只要重新啓動solr，並用下面的命令將Nutch爬取的數據索引到solr即可。

在${NUTCH_HOME}下，運行：

```
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

```
然後訪問：http://localhost:8983/solr/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

nutch-1.4在eclipse中運行

1.選中nutch所在eclipse中的工程，新建一個文件夾urls 2.選中urls文件夾，新建urls.txt（存放url，crawl的起點）。寫入url 3.修改nutch/conf中的nutch-site.xml。如下 4.

2020-06-21 17:54:58

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

淺談ElasticSearch架構以及集成

簡介 Elasticsearch是一個高度可擴展的開源的分佈式Restful全文搜索和分析引擎。它允許用戶快速的（近實時的）存儲、搜索和分析海量數據。它通常用作底層引擎技術，爲具有複雜搜索功能和要求的應用程序提供支持。以下是ES可用於的一

2021-01-30 09:20:30

Nutch介紹及視頻教程

視頻教程：http://pan.baidu.com/s/1hqyZDx6 Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。儘管Web搜索是漫遊Internet的

2020-07-02 14:10:47

Nutch2.2.1+MySQL在macOS上的安裝配置心得

這裏主要說幾個需要注意的點。 1、MySQL是官網下載的安裝版，安裝完成以後不要在終端裏面啓動或者停止MySQL，直接在系統設置裏面啓動或者關閉 2、nutch2.2.1裏面的maven倉庫無法訪問，請替換爲：https://ma

余烬岛游戏

2020-07-01 18:11:32

CentOS環境安裝Solr4.7.0+Apache Nutch 1.7 + IK2012中文分詞筆記

系統環境基於Java，本文不做講解 Solr4.7下載地址：http://archive.apache.org/dist/lucene/solr/4.7.0/ Nutch1.7下載地址：http://archive.apache.org/

2020-06-25 20:18:45

nutch v1.9源碼分析(1)——分析目標

以下主要分析一下nutch提供的各種tool，重點分析一下與爬取cycle相關的流程，也介紹一下其他tool，每個tool主要從如下幾個方面介紹: 1) 每個tool的功能，即職責。 2) 用戶視角的Comma

2020-06-24 02:44:14

nutch v1.9源碼分析(3)——nutch基本爬取流程

1 nutch基本爬取流程 nutch是大名鼎鼎的Doug Cutting發起的爬蟲項目，nutch孵化了現在大數據處理事實上的標準Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nut

2020-06-24 02:44:14

爬蟲產品開發(1)——主要功能和特色

1. 基於Nutch1.8,BS結構 2. 完全MapReduce化 3. 流程驅動，支持3種類型的流程自定義： 1) 網頁內容採集流程：封裝了Nutch的inject、generate、fetch、parse、up

2020-06-24 02:44:13

nutch v1.9源碼分析(2)——nutch bin和src目錄解析及編譯

1 nutch bin目錄結構圖1 nutch release包的目錄結構 1) bin目錄：主要含有2個可執行文件crawl和nutch腳本，其中crawl腳本只是nutch腳本的wrapper，提供了all

2020-06-24 02:44:03

Nutch學習筆記1 ---------Inject

1. Inject 功能介紹在Nutch中Inject是用來把文本格式的url列表注入到抓取數據庫中，一般是用來引導系統的初始化。其中文本格式的URL每一列包含一個url。同時inject裏面保留了兩個元數據。 nu

2020-06-21 17:40:21

[Nutch]Hadoop多機完全分佈式模式hadoop配置

1. 下載hadoop 使用如下命令： wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 使用如下命令解壓： t

2020-06-20 05:21:24

[Nutch]hadoop啓用回收站

目前hadoop在默認情況下是沒有啓用回收站的，如果文件被刪除是沒有辦法恢復的，所以我們需求啓用回收站，以便於恢復已經刪除的文件。 1. 用hadoop創建一個文件夾使用如下的命令在hadoop的文件系統裏面創建一個文件夾u

2020-06-20 05:21:24

雲計算之hadoop生態圈簡介

早在2011年9月份就開始用了3個月時間學習hadoop、hbase、hive、nutch等東西，但當時沒有明確的想法和充足的時間，後來就沒有繼續深入下去。有幸在今年春節之前的1個月的時間，做了hadoop、hbase相結合的簡單開發

2020-06-19 00:52:40

nutch on hadoop 遇到 ls: 無法訪問data/segments: 沒有那個文件或目錄

將nutch部署在hadoop上運行 bin/crawl hdfs://localhost:9000/user/hadoop/urls data http://localhost:8983/solr/ 1 在generator完成

2020-06-16 16:56:09

24小時熱門文章

最新文章

最新評論文章