python爬蟲工程師成長之路一初識爬蟲

原創

Late whale

2020-06-23 02:55

文章目錄

爬蟲簡介

爬蟲，就是網絡爬蟲，也稱爲網頁蜘蛛、網絡機器人、網絡螞蟻等，可以根據我們制定的規則自動的瀏覽互聯網中的信息。
搜索引擎，就是爬蟲的應用者，百度搜索引擎叫baiduspider，360的叫360spider…

爲什麼要學習爬蟲

大數據時代，要進行數據分析，就需要數據源，而爬蟲剛剛可以獲取很多的數據源
熟練掌握爬蟲技術十分有利於就業

爬蟲的結構

爬蟲主要由控制節點、爬蟲節點、資源庫組成。

控制節點：也稱爲爬蟲的中央控制器，主要負責根據URL地址分配線程，並調用爬蟲節點進行爬蟲
爬蟲節點：爬蟲節點根據對應的算法，對網頁進行爬取，爬取完畢後，將對應的結果存儲到對應的資源庫中
資源庫：爬蟲節點存儲爬取結果的地方

控制節點和爬蟲節點的關係

爬蟲的類型

按照爬蟲實現的技術和結構可以分爲通用爬蟲、聚焦爬蟲、增量式爬蟲、深層爬蟲等類型；在實際運用中，常是這幾類的結合體

名稱	特點
通用爬蟲	又稱全網爬蟲；通用爬蟲的目標資源全在互聯網中，通用爬蟲爬取的目標數據巨大，範圍廣泛，所以對性能要求較高。常用於大型搜索引擎，應用價值較高。
聚焦爬蟲	又稱主體爬蟲；聚焦爬蟲按照事先定義好的主題進行網頁爬取，相對於通用爬蟲可以節省資源。常用於特定信息的爬取，爲某一類人羣服務。
增量式爬蟲	增量式爬蟲就是隨着增量式更新。增量式更新指更新的時候只更新網頁的地方，未改變的不做更新；所以增量式爬蟲在爬取網頁時只爬取新出現的網頁；一定程度上保證了所爬取的網頁是更新之後的。
深層爬蟲	可以爬取互聯網中的深層頁面。在互聯網中，深層頁面的數量比靜態頁面的數量多得多。深層爬蟲是最重要的部分是表單填寫，所以i深層爬蟲需要想辦法自動填寫好表單。

注

深層頁面：在互聯網中，網頁可以分爲表成頁面和深層頁面。表成頁面就是不需要提交表單，直接使用靜態的鏈接就能到達的頁面；深層頁面指的是不能直接通過靜態鏈接獲取，而是需要提交關鍵詞之後才能夠獲取到的頁面

聚焦爬蟲的工作原理和過程

因爲聚焦爬蟲可以節省資源，實用性較其他爬蟲更高，所以我們將對聚焦爬蟲進行詳細講解。
原理

聚焦爬蟲有一個控制中心，其負責對整個爬蟲系統進行管理和監控，主要包括控制用戶交互、初始化爬行器、確定主題、協調各模塊之間的工作等。

簡單工作過程

將初始的URL集合傳遞給URL隊列，頁面爬模塊從URL隊列中讀取第一批URL列表。
根據讀取的URL列表地址從互聯網中進行相應的爬取，爬取完畢後將結果傳到頁面數據庫中進行存儲。
實際上要複雜一些，在這裏就先講簡單過程幫助理解。

實際工作過程

爬蟲常用功能

爬取金融信息進行分析預測等
爬取圖片，影片等
爬取信息做成搜素引擎
去除網頁廣告
爬取感興趣的信息

搜索引擎介紹

搜索引擎會利用爬蟲模塊爬取互聯網中的網頁，將爬取到的網頁存儲在原始數據庫中，
爬蟲模塊主要包括控制器和爬行器，控制器主要進行爬行的控制，爬行器負責具體的爬行，然後對原始數據庫中的數據進行索引，並存儲到索引數據庫中
當用戶檢索信息時，通過用戶交互接口(搜素引擎輸入框)輸入需查詢信息，輸入完畢後有檢索器進行分詞等操作，檢索器會從索引數據庫中獲取數據進行相應的檢索處理
用戶輸入信息的同時，會將用戶的行爲信息存儲到用戶日誌數據庫中，如用戶的IP、用戶輸入的關鍵詞等
用戶日誌數據庫中的數據會傳到日誌分析器進行處理，日子分析器會根據大量的用戶數據去調整原始數據庫和索引數據庫。

用戶爬蟲

所謂用戶爬蟲就是專門爬蟲互聯網中用戶數據的一種爬蟲。
爬取用戶信息可以分析出很多有價值的東西，如爬取淘寶的用戶信息，可以分析出該用戶的喜好，該用戶的大概收入，年齡階段等等

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬蟲工程師成長之路一初識爬蟲

文章目錄

爬蟲簡介

爲什麼要學習爬蟲

爬蟲的結構

爬蟲的類型

聚焦爬蟲的工作原理和過程

爬蟲常用功能

搜索引擎介紹

用戶爬蟲

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

Android CharSequence和Stirng之間的互相轉換

Android ScrollView 判斷到頂到底，和設置到頂到底

Android Studio連接真機教程(超詳細)

python 學習筆記十八正則表達式

Web學習筆記 CSS(一) CSS 基礎

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python爬蟲工程師 成長之路一 初識爬蟲

文章目錄

爬蟲簡介

爲什麼要學習爬蟲

爬蟲的結構

爬蟲的類型

聚焦爬蟲的工作原理和過程

爬蟲常用功能

搜索引擎介紹

用戶爬蟲

python爬蟲工程師成長之路一初識爬蟲