nutch的一些讀取命令

最近在研究nutch,整理了一下關於讀取資源數據的命令。

1.查看crawldb數據庫:bin/nutch readdb url/crawldb/ -stats     這個命令可以查看url地址總數和它的狀態及評分。

 查看每個url地址的詳細內容,導出數據:bin/nutch readdb url/crawldb/  -dump crawldb(導出的地址)

 查看具體的url,以163爲例:bin/nutch  readdb url/crawldb/ -url http://www.163.com/

2.查看linkdb數據庫的鏈接情況:bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/

 導出linkdb數據庫文件:bin/nutch readlinkdb url/linkdb/ -dump linkdb(導出的地址)

3.查看segments:bin/nutch readseg -list -dir url/segments/   可以看到每一個segments的名稱,產生的頁面數,抓取的開始時間和結束時間,抓取數和解析數。

 導出segments:bin/nutch readseg -dump url/segments/20090309103156 segdb

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章