原创 WebCollector 2.x入門教程——基本概念

WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架(內核),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本,支持

原创 使用Spring JDBC持久化WebCollector爬取的數據

1.導入Spring JDBC的依賴 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>

原创 WebCollector爬取CSDN博客

新聞、博客爬取是數據採集中常見的需求,也是最容易實現的需求。一些開發者利用HttpClient和Jsoup等工具也可以實現這個需求,但大多數實現的是一個單線程爬蟲,並且在URL去重和斷點爬取這些功能上控制地不好,爬蟲框架可以很好地

原创 WebCollector自定義http請求

WebCollector可以自定義http請求,WebCollector的http請求由Requester完成,BreadthCrawler和RamCrawler本身就實現了Requester接口,默認情況下它們使用自身作爲Req