動態換ip軟件詳解:帶你走近分佈式網絡爬蟲

  分佈式網絡爬蟲就是多臺電腦上都安裝網絡爬蟲程序,重點是聯合採集。單機網絡爬蟲就是隻在一臺電腦上,叫做單機。前嗅的ForeSpider數據採集系統就有單機和網絡服務器版,比如只在一臺網絡服務器上的網絡爬蟲,雖然開了多進程,但還是網絡服務器單機的。但是假如在多個網絡服務器上,而且可以協同採集,就是分佈式的。

  分佈式網絡爬蟲

  分佈式網絡爬蟲可以分爲若干個分佈式層級,不同的應用可能由其中部分層級構成,下圖是一個大型分佈式網絡爬蟲的3個層級:分佈式數據中心、分佈式抓取網絡服務器及分佈式網絡爬蟲程序。整個網絡爬蟲系統由全球多個分佈式數據中心共同構成,每一個數據中心負責抓取本地域周邊的網站網頁。

  動態換ip軟件詳解:帶你走近分佈式網絡爬蟲

  每一個數據中心又由多臺高速網絡連接的抓取網絡服務器構成,而每臺網絡服務器又可以部署多個網絡爬蟲程序。通過多層級的分佈式網絡爬蟲體系,纔可能保證抓取數據的及時性和全面性。

  對於同一數據中心的多臺抓取網絡服務器,不同機器之間的分工協同方式會有差異,常見的分佈式架構有兩種:主從式分佈網絡爬蟲和對等式分佈網絡爬蟲。

  主從式分佈網絡爬蟲(Master-Slave)

  對於主從式分佈網絡爬蟲,不同的網絡服務器承擔不同的角色分工,其中有一臺專門負責對其他網絡服務器提供URL分發服務,其他機器則進行實際的網頁下載。URL網絡服務器維護待抓取URL隊列,並從中獲得待抓取網頁的URL,分配給不同的抓取網絡服務器,另外還要對抓取網絡服務器之間的工作進行負載均衡,使得各個網絡服務器承擔的工作量大致相等,不至於出現忙的過忙、閒的過閒的情形。抓取網絡服務器之間沒有通信聯繫,每一個抓取網絡服務器只和URL網絡服務器進行消息傳遞。

  動態換ip軟件詳解:帶你走近分佈式網絡爬蟲

  對等式分佈網絡爬蟲(Peer to Peer)

  在對等式分佈網絡爬蟲體系中,網絡服務器之間不存在分工差異,每臺網絡服務器承擔相同的功能,各自負擔一部分URL的抓取工作。

  動態換ip軟件詳解:帶你走近分佈式網絡爬蟲

  由網絡服務器自己來判斷某個URL是否應該由自己來抓取,或者將這個URL傳遞給相應的網絡服務器。至於採取的判斷方法,則是對網址的主域名進行哈希計算,之後取模(即hash[域名]%m,這裏的m對應網絡服務器個數),假如計算所得的值和抓取網絡服務器編號匹配,則自己下載該網頁,否則將該網址轉發給對應編號的抓取網絡服務器。

  爲了解決哈希取模的對等式分佈網絡爬蟲存在的問題,UbiCrawler網絡爬蟲提出了改進方案,即放棄哈希取模方式,轉而採用一致性哈希方法(Consisting Hash)來確定網絡服務器的任務分工。

  動態換ip軟件詳解:帶你走近分佈式網絡爬蟲

  對等式分佈網絡爬蟲(一致性哈希)

  一致性哈希將網站的主域名進行哈希,映射爲一個範圍在0到232之間的某個數值,大量的網站主域名會被均勻地哈希到這個數值區間。將哈希值範圍首尾相接,即認爲數值0和最大值重合,這樣可以將其看做有序的環狀序列,從數值0開始,沿着環的順時針方向,哈希值逐漸增大,直到環的結尾。而某個抓取網絡服務器則負責這個環狀序列的一個片段,即落在某個哈希取值範圍內的URL都由該網絡服務器負責下載。這樣即可確定每臺網絡服務器的職責範圍。

太陽換ip軟件:每天40萬新鮮ip,穩健連接,網速損失小,海外也能用!
誠招代理:提供各項×××福利,加入共贏,當老闆!走向人生巔峯!
×××聯繫:852719561(QQ及微信)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章