python基礎爬蟲的框架以及詳細的運行流程

網絡爬蟲是什麼？

網絡爬蟲就是：請求網站並提取數據的自動化程序

網絡爬蟲能做什麼？

網絡爬蟲被廣泛用於互聯網搜索引擎或其他類似網站，可以自動採集所有其能夠訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。

網絡爬蟲還被用於爬取各個網站的數據，進行分析、預測
近幾年來，大量的企業和個人開始使用網絡爬蟲採集互聯網的公開數據，進行數據分析，進一步達到商業目的。

利用網絡爬蟲能從網上爬取什麼數據？

可以好不吹噓的說，平時從瀏覽器瀏覽的所有數據都能被爬取下來。

網絡爬蟲是否合法？

上面說到了爬蟲可以爬取任何數據，那麼，爬取數據這種行爲是否合法？
目前關於爬取數據的法律還在建立和完善中，如果爬取的數據屬於個人使用或者科研範疇，基本不存在什麼問題；一旦要用於商業用途就得注意了，有可能會違法。互聯網界對於網絡爬蟲也建立了一定的道德規範（Robots協議）來約束。
這裏具體看下Robots協議
Robots協議規定各個搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，Robots協議雖然沒有被寫入法律，但是每一個爬蟲都應該遵守這項協議。
下面是淘寶網的robots協議：

從圖中我們就可以發現淘寶網對百度的爬蟲引擎做出了規定，然而百度也會遵守這些規定，不信你可以試試從百度是找不到淘寶裏的商品信息的。

python爬蟲的基本流程

Python爬蟲的基本流程非常簡單，主要可以分爲三部分：（1）獲取網頁；（2）解析網頁（提取數據）；（3）存儲數據。

簡單的介紹下這三部分：

獲取網頁就是給一個網址發送請求，該網址會返回整個網頁的數據。類似於在瀏覽器中輸入網址並按回車鍵，然後可以看到網站的整個頁面。
解析網頁就是從整個網頁的數據中提取想要的數據。
存儲數據顧名思義就是把數據存儲下來，我們可以存儲在文本中，也可以存儲到數據庫中。
###基礎爬蟲的框架以及詳細的運行流程
基礎爬蟲框架主要包括五大模塊，分別是爬蟲調度器、URL管理器、HTML下載器、HTML解析器、數據存儲器。這五大模塊之間的關係如下圖所示：

下來我們來分析這五大模塊之間的功能：

爬蟲調度器主要負責統籌其他四個模塊的協調工作。
URL管理器負責管理URL鏈接，維護已經爬取的URL集合和未爬取的URL集合，提供獲取新URL鏈接的接口。
HTML下載器用於從URL管理器中獲取未爬取的URL鏈接並下載HTML網頁。
HTML解析器用於從HTML下載器中獲取已經下載的HTML網頁，並從中解析出新的URL鏈接交給URL管理器，解析出有效數據交給數據存儲器。
數據存儲器用於將HTML解析器解析出來的數據通過文件或者數據庫的形式存儲起來。

詳細的運行流程如下圖所示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python基礎爬蟲的框架以及詳細的運行流程

網絡爬蟲是什麼？

網絡爬蟲能做什麼？

利用網絡爬蟲能從網上爬取什麼數據？

網絡爬蟲是否合法？

python爬蟲的基本流程

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

JPA(一)：十分鐘入門 JPA

最簡單最詳細的SpringBoot入門項目——HelloWorld

計算機二級資料（過級專用）

C語言學習路線（從入門到實戰）

簡單示例，VS2019調試C語言程序

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結