python爬蟲工程師 成長之路一 初識爬蟲

爬蟲簡介

  • 爬蟲,就是網絡爬蟲,也稱爲網頁蜘蛛、網絡機器人、網絡螞蟻等,可以根據我們制定的規則自動的瀏覽互聯網中的信息。
  • 搜索引擎,就是爬蟲的應用者,百度搜索引擎叫baiduspider,360的叫360spider…

爲什麼要學習爬蟲

  • 大數據時代,要進行數據分析,就需要數據源,而爬蟲剛剛可以獲取很多的數據源
  • 熟練掌握爬蟲技術十分有利於就業

爬蟲的結構

爬蟲主要由控制節點、爬蟲節點、資源庫組成。

  • 控制節點:也稱爲爬蟲的中央控制器,主要負責根據URL地址分配線程,並調用爬蟲節點進行爬蟲
  • 爬蟲節點:爬蟲節點根據對應的算法,對網頁進行爬取,爬取完畢後,將對應的結果存儲到對應的資源庫中
  • 資源庫:爬蟲節點存儲爬取結果的地方

控制節點和爬蟲節點的關係

爬蟲的類型

按照爬蟲實現的技術和結構可以分爲通用爬蟲、聚焦爬蟲、增量式爬蟲、深層爬蟲等類型;在實際運用中,常是這幾類的結合體

名稱 特點
通用爬蟲 又稱全網爬蟲;通用爬蟲的目標資源全在互聯網中,通用爬蟲爬取的目標數據巨大,範圍廣泛,所以對性能要求較高。常用於大型搜索引擎,應用價值較高。
聚焦爬蟲 又稱主體爬蟲;聚焦爬蟲按照事先定義好的主題進行網頁爬取,相對於通用爬蟲可以節省資源。常用於特定信息的爬取,爲某一類人羣服務。
增量式爬蟲 增量式爬蟲就是隨着增量式更新。增量式更新指更新的時候只更新網頁的地方,未改變的不做更新;所以增量式爬蟲在爬取網頁時只爬取新出現的網頁;一定程度上保證了所爬取的網頁是更新之後的。
深層爬蟲 可以爬取互聯網中的深層頁面。在互聯網中,深層頁面的數量比靜態頁面的數量多得多。深層爬蟲是最重要的部分是表單填寫,所以i深層爬蟲需要想辦法自動填寫好表單。

  • 深層頁面:在互聯網中,網頁可以分爲表成頁面和深層頁面。表成頁面就是不需要提交表單,直接使用靜態的鏈接就能到達的頁面;深層頁面指的是不能直接通過靜態鏈接獲取,而是需要提交關鍵詞之後才能夠獲取到的頁面

聚焦爬蟲的工作原理和過程

因爲聚焦爬蟲可以節省資源,實用性較其他爬蟲更高,所以我們將對聚焦爬蟲進行詳細講解。
原理

  • 聚焦爬蟲有一個控制中心,其負責對整個爬蟲系統進行管理和監控,主要包括控制用戶交互、初始化爬行器、確定主題、協調各模塊之間的工作等。

簡單工作過程

  1. 將初始的URL集合傳遞給URL隊列,頁面爬模塊從URL隊列中讀取第一批URL列表。
  2. 根據讀取的URL列表地址從互聯網中進行相應的爬取,爬取完畢後將結果傳到頁面數據庫中進行存儲。
    實際上要複雜一些,在這裏就先講簡單過程幫助理解。

實際工作過程
在這裏插入圖片描述

爬蟲常用功能

  • 爬取金融信息進行分析預測等
  • 爬取圖片,影片等
  • 爬取信息做成搜素引擎
  • 去除網頁廣告
  • 爬取感興趣的信息

搜索引擎介紹

  • 搜索引擎會利用爬蟲模塊爬取互聯網中的網頁,將爬取到的網頁存儲在原始數據庫中,
  • 爬蟲模塊主要包括控制器和爬行器,控制器主要進行爬行的控制,爬行器負責具體的爬行,然後對原始數據庫中的數據進行索引,並存儲到索引數據庫中
  • 當用戶檢索信息時,通過用戶交互接口(搜素引擎輸入框)輸入需查詢信息,輸入完畢後有檢索器進行分詞等操作,檢索器會從索引數據庫中獲取數據進行相應的檢索處理
  • 用戶輸入信息的同時,會將用戶的行爲信息存儲到用戶日誌數據庫中,如用戶的IP、用戶輸入的關鍵詞等
  • 用戶日誌數據庫中的數據會傳到日誌分析器進行處理,日子分析器會根據大量的用戶數據去調整原始數據庫和索引數據庫。
    在這裏插入圖片描述

用戶爬蟲

所謂用戶爬蟲就是專門爬蟲互聯網中用戶數據的一種爬蟲。
爬取用戶信息可以分析出很多有價值的東西,如爬取淘寶的用戶信息,可以分析出該用戶的喜好,該用戶的大概收入,年齡階段等等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章