原创 crontab 命令詳解

cron是一個linux下的定時執行工具,可以在無需人工干預的情況下運行作業。由於Cron 是Linux的內置服務,但它不自動起來,可以用以下的方法啓動、關閉這個服務: /sbin/service cron

原创 閱讀分享-海爾的人單合一模式

海爾的人單合一模式,已經成爲很多企業學習的典範。  這個模式說起來,我總結的兩點,其中一個模式機會公平,而不是結果公平的機制。第二,真正能讓組織裏頭每一個人發揮自己的才能和價值;     人單合一:人

原创 nutch 學習 過濾器

 Nutch的conf目錄中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt、domain-urlfilter

原创 nutch2.2.1抓取流程

 整體流程: InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJob InjectorJob : 從文件中得到一

原创 Nutch2.2.1 開發環境搭建

 1. 環境準備 需要的環境有jdk1.7,Eclipse,SVN,ant,以及Eclipse下的兩個插件subclipse和IvyDe,下載地http://subclipse.tigris.org/update_1.8.x和http

原创 nutch 2.2.1 InjectorJob 類

InjectorJob 類主要是從文件中讀取URL,對URL進行處理後,寫入到webpage表中。 UrlMapper 類 setup 方法設置 爬蟲抓取的時間週期,是一個月; map 方法將URL 註冊到表中; Map<Str

原创 nutch protocol not found

eclipse  搭建完成nutch 2.2.1 之後,運行,報錯如下: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http  at or

原创 讀書筆記-決戰大數據

用數據來幫助企業運營和解決問題,數據化運營用數據去解決問題;採用西方式的思考方式,側重於系統性的分析,對一件事的理解過程,利用數據對之進行細分、歸類、對比、溯源以及從動態中找出變化的規律; PIMA   P-目的 purpose  I-定

原创 移動互聯網對傳統軟件公司的衝擊

          隨着移動互聯網的飛速發展,現實生活中的一切都快速互聯網化,互聯網已經深入的影響着我們的生活。作爲一個傳統軟件公司的IT人員,我深刻的感受到互聯網帶給我生活的巨大變化。互聯網的影響不僅僅影響我的生活,我的工作也被互聯網影

原创 nutch 過濾字符

 今天碰到問題,url正則過濾老是出問題,不爽之下,又打開源碼了。 Crawl.java裏有這麼一段 for (i = 0; i < depth; i++) { // generate new segment