nutch研究記錄1(爬蟲配置)

工作在windows下完成。java、tomcat和eclipse、Cygwin安裝就不多說,其他軟件的安裝方法網上到處是google搜索一下。記錄一下在配置過程中碰到的幾個問題和幾個比較容易忘記的步驟,日後需要時候也可以翻翻。

nutch分爲爬蟲和搜索器
    1.    爬蟲配置。
    a)    Nutch下載解壓後(E:\java\CoreJava\IndexSearchAbout\nutch-1.0)
    b)    創建crawled(存儲爬取數據,包括索引)、urls/url.txt目錄(裏邊的文本用來存儲所需要爬取的網站url,每個url獨立一行)

http://biaowen.iteye.com/
 


    c)    修改配置文件conf/nutch-site.xml

<property>
		<name>http.agent.name</name>
		<value>b-crawler</value>
	</property>
	<property>
		<name>http.agent.version</name>
		<value>1.0</value>
</property>
 

    d)    Conf/crawl-urlfilter.txt裏邊些爬取規則,與urls/url.txt是對應的,比如url.txt裏邊有http://biaowen.iteye.com/,則crawl-urlfilter.txt需要添加相應規則

# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/
 

    e)    配置就完成了,如果沒有意外應該可以正常爬取
            1).    打開cygwin
            2).    cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
            3).    bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
                    -dir(爬取數據存儲目錄)  -depth(深度)  - threads(線程,默認10) –topN(每個深度爬取前幾個頁面)

要特別需要注意一下,在爬取時候儘量保證進程裏沒有java.exe進程,要不你會產生很多莫名其妙的錯誤。因爲有可能該java.exe正在操作nutch索引文件,當前爬取任務操作不了就會報錯,當然了,如果你確定該java.exe進程不鎖定索引文件,那就沒有問題,自己體會吧。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章