原创 基於lucene的nutch索引詳解

1. 索引流程詳解 1.1. crawl中涉及nutch的部分 1.1.1. nutch索引產生所需的文件路徑以及產生的索引路徑   Path linkDb = new Path(dir + "/linkdb");   Path s

原创 (重要)項目整合nutch索引與查詢過程記錄

1.索引過程   創建索引,採用的邏輯思路是:使用正則表達式,從nutch抓取流程產生的文件parse_txt中提取不同的內容,建立不同的索引域。該方法的好處是,對於論壇、新聞等不同的採集信息,可以產生不同的索引域。實例如下:     p

原创 myeclipse svn authorization failed

解決方法:                 找到svn在本地機器上的密碼、身份文件。在windows7操作系統光環境下,該文件放在AppData\Roaming\Subversion下,注意,AppData可能是隱藏的,在隱藏的情況下,搜

原创 對於數據庫的疑問

1.題記    近日將一個網站部署到服務器上,在訪問的過程中,通過linux終端發現,總會有too many connections的錯誤。爲了解決這個錯誤,從幾天前至今,除了兩種解決方法,期間涉及到的很多東西,都不理解,估記於此,與給位

原创 IK中文分詞擴展自定義詞典!!!

1.基於分佈式系統的自定義分詞要求與流程設計   (見圖)E:\plan\readingnote\分詞與索引\分詞\2012-4-20 2.分詞實現原理——詞典的加載過程   2.1.分詞詞典的加載過程涉及到3個類,分別是Confi

原创 基於Linux的Tomcat安裝

在linux環境下安裝tomcat   首先,下載tomcat,看到網上很多資料都下載xxxx.tar.gz類型的tomcat,不明其意。其它 版本

原创 nutch自帶索引域瞭解

nutch自帶的索引域:   AnchorIndexingFilter     linkdb中的achor   BasicIndexingFilte

原创 mysql命令行實現信息存儲

1.命令格式:     mysql>tee  E:/hah.sql;    將mysql命令產生的結果輸出到位於e盤下的haha.sql文件下。 2.注意事項:   (1)使用的是斜槓,而不是"\"。注意添加";"。   (2)要想輸出控

原创 no suitable Driver

出現no suitable Driver的錯誤很多, 有沒有加數據庫驅動,或者spring 的 applicationContext.xml中數據庫連接池的配置信息是否出錯。 對於後者,要注意兩點。 一是:xml中屬性值中的某些符號得用字

原创 Nutch流程之Fetch

1.      概述 Fetch主要是從待抓取列表中取出url,進行抓取解析,期間產生crawl_parse,carwl_fetch,parse_data,parse_text文件夾。本次將講解Fetch的大致流程,重點將是各個文件夾的產

原创 基於Linux的JDK安裝

1.前言   第一次接觸linux,今天下午將虛擬機、linux操作系統安裝到了筆記本上。之後,將jdk安裝到 系統中。 2.主要注意點:   (1

原创 明源羣面經歷——學會適當突出

今天明源軟件的羣面,僥倖勝出,非常驚險。適當突出或許是我突圍的一個重要原因吧。   羣面的形式各種各樣,題目各種各樣,不變的是角色。有議論者,有時間的把控者,有會議的領導者,有總結陳詞者。這四個角色都有可能被HR看到,但是當HR需要通過羣

原创 QuartZ Cron表達式

CronTrigger CronTriggers往往比SimpleTrigger更有用,如果您需要基於日曆的概念,而非SimpleTrigger完全指定的時間間隔,復發的發射工作的時間表。 CronTrigger,你可以指定觸發的時間表

原创 SQLserver實踐總結

僅以此文獻給那些初次接觸SQLSERVER的孩子麼。    本文記錄了自己從安裝SqlServer到遠程連接的過程,屬於入門級別,記錄下來作爲一種知識積累,供大家參考,一家之言,如有錯誤與不足望大家指出。   1.數據庫的安裝。數據庫的安

原创 巧用“谷歌學術”,輕鬆完成參考文獻

巧用“谷歌學術”,輕鬆完成參考文獻作者: 毛斌         “谷歌學術”是谷歌搜索引擎中的學術檢索部分,相對於知網、維普、萬方、Pubmed等專業的論文數據庫來說功能單薄了些,但具有頁面簡約、搜索速度快、集國內外文獻於一體、某