1. 基於Nutch1.8,BS結構
2. 完全MapReduce化
3. 流程驅動,支持3種類型的流程自定義:
1) 網頁內容採集流程:封裝了Nutch的inject、generate、fetch、parse、updatedb等節點,對普通用戶將默認參數進行了調優,對“爬蟲專家”用戶,提供了Nutch所有高級的參數的界面設置入口。
圖1 網頁內容爬取流程定義
圖2 爬取流程實例管理
2) 模板解析流程:實現了定義最少的模板解析最多的網頁。
- 基於機器學習的網頁內容自動聚類
- 基於jsoup的解析模板定義
圖3 模板解析流程定義
圖4 爬取結果聚類之後定義解析模板
3) 爬取內容導出流程:如實現“圖片、視頻滿足一定大小”的多媒體文件導出。
4. 基於規則引擎的網頁內容過濾:對內容解析結果進行復雜過濾,支持常見的字符串函數和邏輯運算符。
圖5 內容過濾時使用規則引擎
5. 實時監控
圖6 流程運行實時監控