nutch研究記錄2(搜索器配置)

2.    搜索器配置。
    a)    將nutch-1.0.war部署到tomcat上,第一次部署tomcat會報錯,沒關係,因爲還沒進行配置,我們目的在於解壓出nutch-1.0,呵呵。
    b)    打開搜索器目錄(我們稱爲web nutch),配置WEB-INF/classes/nutch-site.xml,

<property>
	    <name>searcher.dir</name>
	    <value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled</value>
</property>
 

    c)    現在啓動web nutch應該就沒問題了,不過搜索中文時候會出現亂碼,可以修改tomcat/conf/server.xml來解決

<!--
    <Connector port="8080" protocol="HTTP/1.1" 
               connectionTimeout="20000" 
               redirectPort="8443" />
 -->
<Connector port="8080" 
     		maxThreads="150" 
     		minSpareThreads="25" 
     		maxSpareThreads="75" 
     		enableLookups="false" 
     		redirectPort="8443" 
     		acceptCount="100" 
     		debug="0" 
     		connectionTimeout="20000" 
     		disableUploadTimeout="true" 
     		URIEncoding="UTF-8" 
     		useBodyEncodingForURI="true" />
 

這裏需要提醒一下,如果同一機器上同時運行搜索器和爬蟲時候,當爬蟲抓取數據保存到索引時候會拋出異常,因爲有些索引文件被搜索器鎖定,所以操作不了,導致異常!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章