Heritrix1.14源碼分析（7） Heritrix的文件結構分析

原創

2020-06-23 21:08

轉自：http://blog.csdn.net/jazywoo123/article/details/8223226

每通過Heritrix運行一次抓取後,發現在該Job目錄下就會有很多文件。這裏說明下每個文件的作用，同時更主要介紹它的日誌文件，因爲我們可以通過日誌文件發現Heritrix的抓取情況。首先貼個圖:

以上就是Heritrix完成的文件結構，現在一一說明

序號	文件名	說明
1	order.xml	Heritrix運行的所有配置,一個order.xml就代表一個抓取任務
2	seeds.txt	種子文件,Heritrix從裏面的URL開始抓取
3	state	Heritrix採用BDB去保存URL，這個目錄就是bdb目錄
4	scratch	保存網頁內容,每一個URL網頁內容都對應一對ris和ros文件
5	logs	保存了Heritrix抓取時的日誌,會這種介紹。可以從這些日誌文件挖掘抓取情況
6	checkpoints	等同於數據庫的checkpoint,Heritrix可以設置定時，然後定時備份其所有文件,也就是這裏介紹的所有文件。同時在做這個操作的時候Heritrix暫停所有抓取.
7	seeds-report.txt	種子抓取彙報,主要針對seeds.txt裏的種子URL做個說明。等下會詳細說明...
8	responsecode-report.txt	抓取URL的服務器響應代碼以及該代碼的URL個數。等下會詳細說明...
9	processors-report.txt	每個處理器的抓取報告，等下會詳細說明
10	mimetype-report.txt	網頁類型抓取彙報，等下會詳細說明
11	frontier-report.txt	調度器處理報告,等下會詳細說明
12	crawl-report.txt	抓取彙報,等下會詳細說明
13	crawl-manifest.txt	裏面包含了Heritrix涉及到的文件
14	hosts-report.txt	域抓取彙報,等下會詳細說明

現在重點說明一下Heritrix的所有日誌文件：

             1.抓取彙報文件:crawl-report.txt
                    抓取名字:Crawl Name
                    抓取狀態:Crawl Status
                    抓取用時:Duration Time
                    成功抓取的種子數:Total Seeds Crawled
                    沒有抓取的種子數:Total Seeds not Crawled
                    共抓取的host個數:Total Hosts Crawled
                    共抓取的文檔數(URL數):Total Documents Crawled
                    處理速度(文檔/秒):Processed docs/sec
                    寬帶速率(KB/秒):Bandwidth in Kbytes/sec
                    抓取的字節數:Total Raw Data Size in Bytes
                    共抓取的字節數:Novel Bytes: 11644599984 (11 GB)

           2.調度器彙報:frontier-report.txt
                   1)隊列描述：
                             處理中隊列:IN-PROCESS QUEUES
                             準備隊列:READY QUEUES
                             延遲隊列:SNOOZED QUEUES
                             不在活動狀態隊列:INACTIVE QUEUES
                             退休隊列:RETIRED QUEUES
                   2)屬性描述:
                              queue:隊列ID,爲class key
                              currentSize:當前隊列包含URL個數
                              totalEnqueues:進入該隊列的URL個數
                              sessionBalance:預算值
                              lastCost:上一個URL所花費成本
                              (averageCost):平均成本
                              lastDequeueTime:上一個URL出隊列的時間
                              wakeTime:醒來的時間
                              totalSpend/totalBudget:總花費
                              errorCount:出現錯誤的URL個數
                              lastPeekUri:上一個獲取的URL
                             lastQueuedUri:上一個進入隊列的URL

          3.抓取host彙報(按urls個數從大到小排序):hosts-report.txt
                  [#urls]:該host下URL個數
                  [#bytes]:該host下所抓取的字節數
                  [host]:host
                  [#robots]:被爬蟲協議拒絕的url個數
                  [#remaining]:剩下還未處理的URL個數

         4.網頁類型(一般爲text/dns和text/html)抓取彙報:mimetype-report.txt
                  [#urls]:該網頁類型的url個數
                  [#bytes]:該網頁類型一共處理的字節數
                  [mime-types]:網頁類型(text/dns和text/html)

         5.處理器彙報:processors-report.txt
                 1)總體彙報:Processors report
                          Job being crawled:該JOB來源的JOB
                          Number of Processors:處理器個數,包括無效的處理器
                          NOTE:處理器說明
                 2)單個Processor彙報:
                          Processor:處理器名
                          Function:處理器功能
                          CrawlURIs handled:該處理器下處理的URL個數
                          Recovery retries:
                          Links extracted:抽取出來的URL個數

          6.Http response彙報:responsecode-report.txt
                         [rescode]:Http response code
                                     1:請求http
                                     200:http成功相應
                                     302:暫時性重定向
                                     500:http服務器內部錯誤
                          [#urls]:是該code的URL個數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Heritrix1.14源碼分析（7） Heritrix的文件結構分析

Heritrix1.14源碼分析（3）修改配置文件order.xml加快你的抓取速度

Heritrix1.14源碼分析（7） Heritrix的文件結構分析

HttpClient 教程 (五)

Heritrix1.14源碼分析（2）配置文件order.xml介紹

HttpClient_4 用法由HttpClient_3 升級到 HttpClient_4 必看

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結