jspider

         網絡蜘蛛(機器人)Nutch,Heritrix,jspider都嘗試着用了一下(娛樂水平的)呵呵,下面我說一些很低級(因爲壓根兒,我也沒仔細看)的比較:
        1.Nutch是Lucene的子項目,所以它好像遍歷網頁時,同時也把網頁索引了,所以看不到真實的網頁信息。不過配起來也不咋麻煩,看這個Nutch 0.9的使用就可配好了。
       2.Heritrix,我更沒什麼資格說了,常識了三次都失敗了,主要是因爲Heritrix,Nutch在windows下比較麻煩(本來人家就是較爲針對Unix,Linux的),在加上它的名字不好讀,呵呵
      3.jspider,呵呵那個叫簡單啊,衝到bin目錄下,一個:jspider http://localhost:8080 download 命令就可以下載這個網站了,爽!!!在加上它有Jspider用戶使用手冊(JSpider   User Manual),pdf的,那就更爽了,雖然都是英文的,但是極易讀懂,初三水平應該就可以了。這是它的官方地址:http://j-spider.sourceforge.net/,我上傳的jspider-0-5-0-doc-user.pdf則是,我正在閱讀的那個,加了部分目錄,畫了幾個道道,自己看着方便而已,希望沒有犯大錯誤。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章