Heritrix1.14源碼分析(7) Heritrix的文件結構分析

轉自:http://blog.csdn.net/jazywoo123/article/details/8223226


每通過Heritrix運行一次抓取後,發現在該Job目錄下就會有很多文件。這裏說明下每個文件的作用,同時更主要介紹它的日誌文件,因爲我們可以通過日誌文件發現Heritrix的抓取情況。首先貼個圖:

        以上就是Heritrix完成的文件結構,現在一一說明

 

序號 文件名 說明
1 order.xml Heritrix運行的所有配置,一個order.xml就代表一個抓取任務
2 seeds.txt 種子文件,Heritrix從裏面的URL開始抓取
3 state Heritrix採用BDB去保存URL,這個目錄就是bdb目錄
4 scratch 保存網頁內容,每一個URL網頁內容都對應一對ris和ros文件
5 logs 保存了Heritrix抓取時的日誌,會這種介紹。可以從這些日誌文件挖掘抓取情況
6 checkpoints 等同於數據庫的checkpoint,Heritrix可以設置定時,然後定時備份其所有文件,也就是這裏介紹的所有文件。同時在做這個操作的時候Heritrix暫停所有抓取.
7 seeds-report.txt 種子抓取彙報,主要針對seeds.txt裏的種子URL做個說明。等下會詳細說明...
8 responsecode-report.txt 抓取URL的服務器響應代碼以及該代碼的URL個數。等下會詳細說明...
9 processors-report.txt 每個處理器的抓取報告,等下會詳細說明
10 mimetype-report.txt 網頁類型抓取彙報,等下會詳細說明
11 frontier-report.txt 調度器處理報告,等下會詳細說明
12 crawl-report.txt 抓取彙報,等下會詳細說明
13 crawl-manifest.txt 裏面包含了Heritrix涉及到的文件
14 hosts-report.txt 域抓取彙報,等下會詳細說明

       

        現在重點說明一下Heritrix的所有日誌文件:

             1.抓取彙報文件:crawl-report.txt
                    抓取名字:Crawl Name
                    抓取狀態:Crawl Status
                    抓取用時:Duration Time
                    成功抓取的種子數:Total Seeds Crawled    
                    沒有抓取的種子數:Total Seeds not Crawled 
                    共抓取的host個數:Total Hosts Crawled
                    共抓取的文檔數(URL數):Total Documents Crawled
                    處理速度(文檔/秒):Processed docs/sec
                    寬帶速率(KB/秒):Bandwidth in Kbytes/sec
                    抓取的字節數:Total Raw Data Size in Bytes
                    共抓取的字節數:Novel Bytes: 11644599984 (11 GB)

 

           2.調度器彙報:frontier-report.txt
                   1)隊列描述:
                             處理中隊列:IN-PROCESS QUEUES
                             準備隊列:READY QUEUES
                             延遲隊列:SNOOZED QUEUES
                             不在活動狀態隊列:INACTIVE QUEUES
                             退休隊列:RETIRED QUEUES
                   2)屬性描述:
                              queue:隊列ID,爲class key
                              currentSize:當前隊列包含URL個數
                              totalEnqueues:進入該隊列的URL個數
                              sessionBalance:預算值
                              lastCost:上一個URL所花費成本
                              (averageCost):平均成本
                              lastDequeueTime:上一個URL出隊列的時間 
                              wakeTime:醒來的時間 
                              totalSpend/totalBudget:總花費 
                              errorCount:出現錯誤的URL個數 
                              lastPeekUri:上一個獲取的URL 
                             lastQueuedUri:上一個進入隊列的URL

 

          3.抓取host彙報(按urls個數從大到小排序):hosts-report.txt
                  [#urls]:該host下URL個數
                  [#bytes]:該host下所抓取的字節數
                  [host]:host 
                  [#robots]:被爬蟲協議拒絕的url個數
                  [#remaining]:剩下還未處理的URL個數

 

         4.網頁類型(一般爲text/dns和text/html)抓取彙報:mimetype-report.txt
                  [#urls]:該網頁類型的url個數
                  [#bytes]:該網頁類型一共處理的字節數
                  [mime-types]:網頁類型(text/dns和text/html)

 

         5.處理器彙報:processors-report.txt
                 1)總體彙報:Processors report
                          Job being crawled:該JOB來源的JOB
                          Number of Processors:處理器個數,包括無效的處理器
                          NOTE:處理器說明
                 2)單個Processor彙報:
                          Processor:處理器名
                          Function:處理器功能
                          CrawlURIs handled:該處理器下處理的URL個數
                          Recovery retries:
                          Links extracted:抽取出來的URL個數

 

          6.Http response彙報:responsecode-report.txt
                         [rescode]:Http response code
                                     1:請求http
                                     200:http成功相應
                                     302:暫時性重定向
                                     500:http服務器內部錯誤
                          [#urls]:是該code的URL個數


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章