爬蟲產品開發(1)——主要功能和特色

1.  基於Nutch1.8,BS結構

2.  完全MapReduce化

3.  流程驅動,支持3種類型的流程自定義:

1)        網頁內容採集流程:封裝了Nutch的inject、generate、fetch、parse、updatedb等節點,對普通用戶將默認參數進行了調優,對“爬蟲專家”用戶,提供了Nutch所有高級的參數的界面設置入口。

圖1 網頁內容爬取流程定義


圖2 爬取流程實例管理

2)        模板解析流程:實現了定義最少的模板解析最多的網頁。

  •   基於機器學習的網頁內容自動聚類
  •  基於jsoup的解析模板定義

圖3 模板解析流程定義


圖4 爬取結果聚類之後定義解析模板

3)        爬取內容導出流程:如實現“圖片、視頻滿足一定大小”的多媒體文件導出。

4.  基於規則引擎的網頁內容過濾:對內容解析結果進行復雜過濾,支持常見的字符串函數和邏輯運算符。

圖5 內容過濾時使用規則引擎

5.  實時監控

圖6 流程運行實時監控

 

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章