轉自:http://blog.csdn.net/jazywoo123/article/details/8223226
每通過Heritrix運行一次抓取後,發現在該Job目錄下就會有很多文件。這裏說明下每個文件的作用,同時更主要介紹它的日誌文件,因爲我們可以通過日誌文件發現Heritrix的抓取情況。首先貼個圖:
以上就是Heritrix完成的文件結構,現在一一說明
序號 | 文件名 | 說明 |
1 | order.xml | Heritrix運行的所有配置,一個order.xml就代表一個抓取任務 |
2 | seeds.txt | 種子文件,Heritrix從裏面的URL開始抓取 |
3 | state | Heritrix採用BDB去保存URL,這個目錄就是bdb目錄 |
4 | scratch | 保存網頁內容,每一個URL網頁內容都對應一對ris和ros文件 |
5 | logs | 保存了Heritrix抓取時的日誌,會這種介紹。可以從這些日誌文件挖掘抓取情況 |
6 | checkpoints | 等同於數據庫的checkpoint,Heritrix可以設置定時,然後定時備份其所有文件,也就是這裏介紹的所有文件。同時在做這個操作的時候Heritrix暫停所有抓取. |
7 | seeds-report.txt | 種子抓取彙報,主要針對seeds.txt裏的種子URL做個說明。等下會詳細說明... |
8 | responsecode-report.txt | 抓取URL的服務器響應代碼以及該代碼的URL個數。等下會詳細說明... |
9 | processors-report.txt | 每個處理器的抓取報告,等下會詳細說明 |
10 | mimetype-report.txt | 網頁類型抓取彙報,等下會詳細說明 |
11 | frontier-report.txt | 調度器處理報告,等下會詳細說明 |
12 | crawl-report.txt | 抓取彙報,等下會詳細說明 |
13 | crawl-manifest.txt | 裏面包含了Heritrix涉及到的文件 |
14 | hosts-report.txt | 域抓取彙報,等下會詳細說明 |
現在重點說明一下Heritrix的所有日誌文件:
1.抓取彙報文件:crawl-report.txt
抓取名字:Crawl Name
抓取狀態:Crawl Status
抓取用時:Duration Time
成功抓取的種子數:Total Seeds Crawled
沒有抓取的種子數:Total Seeds not Crawled
共抓取的host個數:Total Hosts Crawled
共抓取的文檔數(URL數):Total Documents Crawled
處理速度(文檔/秒):Processed docs/sec
寬帶速率(KB/秒):Bandwidth in Kbytes/sec
抓取的字節數:Total Raw Data Size in Bytes
共抓取的字節數:Novel Bytes: 11644599984 (11 GB)
2.調度器彙報:frontier-report.txt
1)隊列描述:
處理中隊列:IN-PROCESS QUEUES
準備隊列:READY QUEUES
延遲隊列:SNOOZED QUEUES
不在活動狀態隊列:INACTIVE QUEUES
退休隊列:RETIRED QUEUES
2)屬性描述:
queue:隊列ID,爲class key
currentSize:當前隊列包含URL個數
totalEnqueues:進入該隊列的URL個數
sessionBalance:預算值
lastCost:上一個URL所花費成本
(averageCost):平均成本
lastDequeueTime:上一個URL出隊列的時間
wakeTime:醒來的時間
totalSpend/totalBudget:總花費
errorCount:出現錯誤的URL個數
lastPeekUri:上一個獲取的URL
lastQueuedUri:上一個進入隊列的URL
3.抓取host彙報(按urls個數從大到小排序):hosts-report.txt
[#urls]:該host下URL個數
[#bytes]:該host下所抓取的字節數
[host]:host
[#robots]:被爬蟲協議拒絕的url個數
[#remaining]:剩下還未處理的URL個數
4.網頁類型(一般爲text/dns和text/html)抓取彙報:mimetype-report.txt
[#urls]:該網頁類型的url個數
[#bytes]:該網頁類型一共處理的字節數
[mime-types]:網頁類型(text/dns和text/html)
5.處理器彙報:processors-report.txt
1)總體彙報:Processors report
Job being crawled:該JOB來源的JOB
Number of Processors:處理器個數,包括無效的處理器
NOTE:處理器說明
2)單個Processor彙報:
Processor:處理器名
Function:處理器功能
CrawlURIs handled:該處理器下處理的URL個數
Recovery retries:
Links extracted:抽取出來的URL個數
6.Http response彙報:responsecode-report.txt
[rescode]:Http response code
1:請求http
200:http成功相應
302:暫時性重定向
500:http服務器內部錯誤
[#urls]:是該code的URL個數