2. 搜索器配置。
a) 將nutch-1.0.war部署到tomcat上,第一次部署tomcat會報錯,沒關係,因爲還沒進行配置,我們目的在於解壓出nutch-1.0,呵呵。
b) 打開搜索器目錄(我們稱爲web nutch),配置WEB-INF/classes/nutch-site.xml,
<property>
<name>searcher.dir</name>
<value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled</value>
</property>
c) 現在啓動web nutch應該就沒問題了,不過搜索中文時候會出現亂碼,可以修改tomcat/conf/server.xml來解決
<!--
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" />
-->
<Connector port="8080"
maxThreads="150"
minSpareThreads="25"
maxSpareThreads="75"
enableLookups="false"
redirectPort="8443"
acceptCount="100"
debug="0"
connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="UTF-8"
useBodyEncodingForURI="true" />
這裏需要提醒一下,如果同一機器上同時運行搜索器和爬蟲時候,當爬蟲抓取數據保存到索引時候會拋出異常,因爲有些索引文件被搜索器鎖定,所以操作不了,導致異常!