Heritrix1.14源碼分析(3) 修改配置文件order.xml加快你的抓取速度

轉自:http://blog.csdn.net/jazywoo123/article/details/8223209


Heritrix的order.xml分了很多組件,可以靈活的配置各個抓取參數。但很多人都關心如何使得抓取更快更久更多,這裏首先從Heritrix自身着手吧,修改order.xml的一些參數其實也可以達到這一目的.

       下面就列出各個參數、說明和理想值

     

序號 配置名 理想值 說明
1 <long name="max-bytes-download">0</long> 0 最大下載字節數,就是當Heritrix抓取了多少字節後停止抓取0表示爲無限制
2 <long name="max-document-download">0</long> 0 最大下載文檔數,就是當Heritrix抓取了多少URL則停止抓取,0表示沒有限制
3  <long name="max-time-sec">0</long>  3  抓取一個網頁的最大時間(秒),超過了該時間則不抓取,0表示沒有這個限制
4  <integer name="max-toe-threads">3</integer>  50  抓取的線程數,表示有多少個線程去抓取,一般50足夠了
5  <float name="delay-factor">4.0</float>  1.0  如果從某個隊列抓取一個URL花費N秒,則下次從該隊列獲取URL去抓取則要延遲N*該值
6  <integer name="max-delay-ms">20000</integer>  2000  隊列的最大延遲時間,單位爲毫秒
7  <integer name="min-delay-ms">2000</integer>  0  隊列的最小延遲時間,單位爲毫秒
8  <integer name="max-retries">30</integer>  5  URL抓取失敗可以重試的次數,重試次數越少越好
9  <integer name="total-bandwidth-usage-KB-sec">0</integer>  0  總的 抓取速度(KB/秒)限制,0表示沒有限制
10   <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer>  0

 每個域名抓取速度(KB/S)限制,0表示沒有限制

 

11 <integer name="target-ready-backlog">50</integer> 200 準備隊列中待抓取的URL個數,這些URL無需經過隊列等待可以立刻去抓取
12  <integer name="ip-validity-duration-seconds">21600</integer> 0 DNS有效時間(單位爲秒),超過這個時間則要重新去獲取DNS
13 <integer name="robot-validity-duration-seconds">86400</integer> 0 爬蟲協議(robots.txt)有效時間,超過這個時間則要重新去讀取robots.txt

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章