工作在windows下完成。java、tomcat和eclipse、Cygwin安裝就不多說,其他軟件的安裝方法網上到處是google搜索一下。記錄一下在配置過程中碰到的幾個問題和幾個比較容易忘記的步驟,日後需要時候也可以翻翻。
nutch分爲爬蟲和搜索器
1. 爬蟲配置。
a) Nutch下載解壓後(E:\java\CoreJava\IndexSearchAbout\nutch-1.0)
b) 創建crawled(存儲爬取數據,包括索引)、urls/url.txt目錄(裏邊的文本用來存儲所需要爬取的網站url,每個url獨立一行)
http://biaowen.iteye.com/
c) 修改配置文件conf/nutch-site.xml
<property>
<name>http.agent.name</name>
<value>b-crawler</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
d) Conf/crawl-urlfilter.txt裏邊些爬取規則,與urls/url.txt是對應的,比如url.txt裏邊有http://biaowen.iteye.com/,則crawl-urlfilter.txt需要添加相應規則
# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/
e) 配置就完成了,如果沒有意外應該可以正常爬取
1). 打開cygwin
2). cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
3). bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
-dir(爬取數據存儲目錄) -depth(深度) - threads(線程,默認10) –topN(每個深度爬取前幾個頁面)
要特別需要注意一下,在爬取時候儘量保證進程裏沒有java.exe進程,要不你會產生很多莫名其妙的錯誤。因爲有可能該java.exe正在操作nutch索引文件,當前爬取任務操作不了就會報錯,當然了,如果你確定該java.exe進程不鎖定索引文件,那就沒有問題,自己體會吧。