網絡爬蟲的類型

通常網絡爬蟲都有自己的架構流程,絕大多數爬蟲系統遵循網絡爬蟲的流程,但是並非意味着所有爬蟲都如此一致。根據具體應用的不同,爬蟲系統在許多方面存在差異,大體而言可以將爬蟲分爲3中類型。

批量型爬蟲:批量型爬蟲有比較明確的抓去範圍和目標,當爬蟲達到這個設定的目標後,即停止抓取過程。至於具體目標可能各異,也許是設定抓取一定數量的網頁即可,也許是設定抓取消耗的時間等,不一而足。

增量型爬蟲:增量型爬蟲分與批量型爬蟲不同,會保持持續不斷的抓取,對於抓取到的網頁,要定期更新,因爲互聯網網頁處於不斷變化中,新增網頁、網頁被刪除或者網頁內容更改都很常見,而增量型爬蟲需要及時反映這種變化,所以處於持續不斷的抓取過程中,不是在抓取新網頁,就是在更新已有網頁。通用的商業搜索引擎爬蟲基本都屬此類。

垂直型爬蟲:垂直型爬蟲關注特定主題內容或者屬於特定行業的網頁,比如對於健康網站來說,只需要從互聯網頁裏面找到與健康相關的頁面內容即可,其他行業的內容是否屬於指定行業或着主題。從節省系統資源的角度來說,不太可能把所有互聯網頁面下載下來之後再去篩選,這樣浪費資源就太過分了,往往需要爬蟲在抓取階段就能夠動態識別某個網址是是否與主題相關,並儘量不去抓取無關頁面,以達到節省資源的目的。垂直搜索網站或者垂直行業網站往往需要此種類型的爬蟲。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章