爬蟲基礎----1

原創

2020-06-09 00:46

爬蟲前奏

爬蟲的實際例子：
1.搜索引擎(百度，谷歌，360搜索等)；
2.伯樂在線；
3.惠惠購物助手；
4.數據分析與研究(數據冰山知乎專欄)；
5.搶票軟件等。

什麼是網絡爬蟲：
1.通俗理解：爬蟲是一個模擬人類請求網站行爲的程序。可以自動請求網頁，並把數據抓取下來，然後使用一定的規則提取有價值的數據。
2.專業介紹：網絡爬蟲又被稱爲網頁蜘蛛，網絡機器人，在FOAF(網絡空間搜索引擎)社區中間，更經常的稱爲網頁追逐者，是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動搜索，模擬程序或者蠕蟲。

通用爬蟲和聚焦爬蟲：
1.通用爬蟲：通用爬蟲是搜索引擎抓取系統(百度，谷歌，搜狗等)的重要組成部分。主要是將互聯網上的網頁下載到本地，形成一個互聯網內容的鏡像備份。
2.聚焦爬蟲：是面向特定需求的一種網絡爬蟲程序，他與通用爬蟲的區別在於：聚焦爬蟲在實施網頁抓取的時候會對內容進行篩選和處理，儘量保證只抓取與需求相關的網頁信息。

爲什麼用Python爲爬蟲程序：
1.PHP：PHP是世界上最好的語言，但他天生不是做這個的，而且對多線程，異步支持不是很好，併發處理能力弱。爬蟲是工具性程序，對速度和效率要求比較高。
2.Java：生態圈完善，是Python爬蟲最大的競爭對手。但是Java語言本身很笨重，代碼量很大。重構成本比較高，任何修改會導致代碼大量改動。爬蟲經常要修改採集代碼。
3.C/C++：運行效率是無敵的。但是學習和開發成本高。寫個小爬蟲程序可能要大半天的時間。
4.Python：語法優美，代碼簡潔，開發效率高，支持的模塊多。相關的HTTP請求模塊和HTML解析模塊非常豐富。還有Scrapy和Scrapy-redis框架讓我們開發爬蟲變得異常簡單。

準備工具：
1.Python3.6開發環境；
2.PyCharm;
3.虛擬環境。virtualenv/virtualenvwrapper

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲基礎----1

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

初讀Redis—第一回

對象總覽—第二回

爬蟲基礎----1

Redis數據結構與對象注意點—第四回

Redis對象各自的命令—第三回

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結