nutch研究記錄2（搜索器配置）

原創

iteye_20816

2020-06-16 12:49

2.    搜索器配置。
    a)    將nutch-1.0.war部署到tomcat上，第一次部署tomcat會報錯，沒關係，因爲還沒進行配置，我們目的在於解壓出nutch-1.0，呵呵。
    b)    打開搜索器目錄(我們稱爲web nutch)，配置WEB-INF/classes/nutch-site.xml，

<property>
	    <name>searcher.dir</name>
	    <value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled</value>
</property>

c) 現在啓動web nutch應該就沒問題了，不過搜索中文時候會出現亂碼，可以修改tomcat/conf/server.xml來解決

<!--
    <Connector port="8080" protocol="HTTP/1.1" 
               connectionTimeout="20000" 
               redirectPort="8443" />
 -->
<Connector port="8080" 
     		maxThreads="150" 
     		minSpareThreads="25" 
     		maxSpareThreads="75" 
     		enableLookups="false" 
     		redirectPort="8443" 
     		acceptCount="100" 
     		debug="0" 
     		connectionTimeout="20000" 
     		disableUploadTimeout="true" 
     		URIEncoding="UTF-8" 
     		useBodyEncodingForURI="true" />

這裏需要提醒一下，如果同一機器上同時運行搜索器和爬蟲時候，當爬蟲抓取數據保存到索引時候會拋出異常，因爲有些索引文件被搜索器鎖定，所以操作不了，導致異常！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

nutch研究記錄2（搜索器配置）

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

strusts2 + EJB3 整合，記錄一下……

nutch研究記錄2（搜索器配置）

認識SSO（單點登陸）

我對SOA的理解。

xsl之xslt粗略認識

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結