轉自:http://blog.csdn.net/jazywoo123/article/details/8223209
下面就列出各個參數、說明和理想值
序號 | 配置名 | 理想值 | 說明 |
1 | <long name="max-bytes-download">0</long> | 0 | 最大下載字節數,就是當Heritrix抓取了多少字節後停止抓取0表示爲無限制 |
2 | <long name="max-document-download">0</long> | 0 | 最大下載文檔數,就是當Heritrix抓取了多少URL則停止抓取,0表示沒有限制 |
3 | <long name="max-time-sec">0</long> | 3 | 抓取一個網頁的最大時間(秒),超過了該時間則不抓取,0表示沒有這個限制 |
4 | <integer name="max-toe-threads">3</integer> | 50 | 抓取的線程數,表示有多少個線程去抓取,一般50足夠了 |
5 | <float name="delay-factor">4.0</float> | 1.0 | 如果從某個隊列抓取一個URL花費N秒,則下次從該隊列獲取URL去抓取則要延遲N*該值 |
6 | <integer name="max-delay-ms">20000</integer> | 2000 | 隊列的最大延遲時間,單位爲毫秒 |
7 | <integer name="min-delay-ms">2000</integer> | 0 | 隊列的最小延遲時間,單位爲毫秒 |
8 | <integer name="max-retries">30</integer> | 5 | URL抓取失敗可以重試的次數,重試次數越少越好 |
9 | <integer name="total-bandwidth-usage-KB-sec">0</integer> | 0 | 總的 抓取速度(KB/秒)限制,0表示沒有限制 |
10 | <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer> | 0 |
每個域名抓取速度(KB/S)限制,0表示沒有限制
|
11 | <integer name="target-ready-backlog">50</integer> | 200 | 準備隊列中待抓取的URL個數,這些URL無需經過隊列等待可以立刻去抓取 |
12 | <integer name="ip-validity-duration-seconds">21600</integer> | 0 | DNS有效時間(單位爲秒),超過這個時間則要重新去獲取DNS |
13 | <integer name="robot-validity-duration-seconds">86400</integer> | 0 | 爬蟲協議(robots.txt)有效時間,超過這個時間則要重新去讀取robots.txt |