nutch研究記錄1（爬蟲配置）

原創

iteye_20816

2020-02-24 07:18

工作在windows下完成。java、tomcat和eclipse、Cygwin安裝就不多說，其他軟件的安裝方法網上到處是google搜索一下。記錄一下在配置過程中碰到的幾個問題和幾個比較容易忘記的步驟，日後需要時候也可以翻翻。

nutch分爲爬蟲和搜索器
   1.   爬蟲配置。
   a)   Nutch下載解壓後（E:\java\CoreJava\IndexSearchAbout\nutch-1.0）
   b)   創建crawled（存儲爬取數據，包括索引）、urls/url.txt目錄（裏邊的文本用來存儲所需要爬取的網站url，每個url獨立一行）

http://biaowen.iteye.com/

c) 修改配置文件conf/nutch-site.xml

<property>
		<name>http.agent.name</name>
		<value>b-crawler</value>
	</property>
	<property>
		<name>http.agent.version</name>
		<value>1.0</value>
</property>

d) Conf/crawl-urlfilter.txt裏邊些爬取規則，與urls/url.txt是對應的，比如url.txt裏邊有http://biaowen.iteye.com/,則crawl-urlfilter.txt需要添加相應規則

# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/

   e)   配置就完成了，如果沒有意外應該可以正常爬取
           1).   打開cygwin
           2).   cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
           3).   bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
                   -dir(爬取數據存儲目錄) -depth(深度) - threads(線程，默認10) –topN(每個深度爬取前幾個頁面)

要特別需要注意一下，在爬取時候儘量保證進程裏沒有java.exe進程，要不你會產生很多莫名其妙的錯誤。因爲有可能該java.exe正在操作nutch索引文件，當前爬取任務操作不了就會報錯，當然了，如果你確定該java.exe進程不鎖定索引文件，那就沒有問題，自己體會吧。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

nutch研究記錄1（爬蟲配置）

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

strusts2 + EJB3 整合，記錄一下……

nutch研究記錄2（搜索器配置）

認識SSO（單點登陸）

我對SOA的理解。

xsl之xslt粗略認識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結