WebCollector 2.x的增量更新機制,適合採集門戶網站的更新新聞信息。
基於WebCollector 2.x 我們製作了Android APP程序員雜誌。應用採用HTML5構建,應用只有33k,應用使用了webkit的緩存機制,非常節省流量。
下載地址:百度應用下載地址
WebCollector 2.x去除了1.x版本中依賴時間的增量更新,而是增添了API Crawler.addForcedSeed(String)。
通過addForceSeed(String)添加的種子在斷點爬取中會被重複爬取,如果對門戶網站進行爬取,各個模塊的首頁一般都通過addForceSeed的方式加入。爬蟲檢測到這些頁面上有新的鏈接,就可以即時爬取。