Nutch入門白話版

不得不說,Nutch的入門官方文檔寫的真不清晰明瞭。害的我按照官方文檔折騰半天。


Nutch現在已經到了2.2.2版本,而且版本1.x已經更新到了1.8,這裏以1.7爲例,1.8中的部分命令行工具的API有變,入門時不是很容易。


#安轉運行Nutch#


- 下載安裝Nutch
- 在${NUTCH_HOME}下,mkdir urls
- cd urls
- touch seed.txt
- edit seed.txt ,write :http://nutch.apache.org
- edit ${NUTCH_HOME}/conf/regex.urlfilter.txt
- replace


```
'#accept anything else
+.


```


with


```
+^http://([a-z0-9]*\.)*nutch.apache.org/


```


- 爬取網頁: bin/nutch crawl urls -dir crawl -depth 3 -topN 5
注意:此命令1.8版本有改變


#安裝Solr#


- 下載安裝Solr,我使用的時最新版的4.8
- cd ${SOLR_HOME}/example
- java -jar start.jar
- 驗證安裝:http://localhost:8983/solr/


#Nutch和Solr集成#
這裏要注意:文檔說了那麼多其實只有兩件事:
+ 使用${NUTCH_HOME}/conf/schema-solr4.xml 替換掉${SOLR_HOME}/example/solr/collection1/conf/schema.xml ,並將schema-solr4.xml改名爲schema.xml
+ 在schema.xml中第351行後面(其實只要添加在types標籤中即可)添加:<field name="_version_" type="long" indexed="true" stored="true"/>


到這裏集成就完成了。現在只要重新啓動solr,並用下面的命令將Nutch爬取的數據索引到solr即可。


在${NUTCH_HOME}下,運行:


```
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*


```
然後訪問:http://localhost:8983/solr/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章