基於WebCollector 2.x的增量更新機制,製作新聞採集APP

WebCollector 2.x的增量更新機制,適合採集門戶網站的更新新聞信息。

基於WebCollector 2.x 我們製作了Android APP程序員雜誌。應用採用HTML5構建,應用只有33k,應用使用了webkit的緩存機制,非常節省流量。

下載地址:百度應用下載地址

WebCollector 2.x去除了1.x版本中依賴時間的增量更新,而是增添了API Crawler.addForcedSeed(String)。

通過addForceSeed(String)添加的種子在斷點爬取中會被重複爬取,如果對門戶網站進行爬取,各個模塊的首頁一般都通過addForceSeed的方式加入。爬蟲檢測到這些頁面上有新的鏈接,就可以即時爬取。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章