爬蟲基礎----1

爬蟲前奏

爬蟲的實際例子:
1.搜索引擎(百度,谷歌,360搜索等);
2.伯樂在線;
3.惠惠購物助手;
4.數據分析與研究(數據冰山知乎專欄);
5.搶票軟件等。

什麼是網絡爬蟲:
1.通俗理解:爬蟲是一個模擬人類請求網站行爲的程序。可以自動請求網頁,並把數據抓取下來,然後使用一定的規則提取有價值的數據。
2.專業介紹:網絡爬蟲又被稱爲網頁蜘蛛,網絡機器人,在FOAF(網絡空間搜索引擎)社區中間,更經常的稱爲網頁追逐者,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動搜索,模擬程序或者蠕蟲。

通用爬蟲和聚焦爬蟲:
1.通用爬蟲:通用爬蟲是搜索引擎抓取系統(百度,谷歌,搜狗等)的重要組成部分。主要是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。
2.聚焦爬蟲:是面向特定需求的一種網絡爬蟲程序,他與通用爬蟲的區別在於:聚焦爬蟲在實施網頁抓取的時候會對內容進行篩選和處理,儘量保證只抓取與需求相關的網頁信息。

爲什麼用Python爲爬蟲程序:
1.PHP:PHP是世界上最好的語言,但他天生不是做這個的,而且對多線程,異步支持不是很好,併發處理能力弱。爬蟲是工具性程序,對速度和效率要求比較高。
2.Java:生態圈完善,是Python爬蟲最大的競爭對手。但是Java語言本身很笨重,代碼量很大。重構成本比較高,任何修改會導致代碼大量改動。爬蟲經常要修改採集代碼。
3.C/C++:運行效率是無敵的。但是學習和開發成本高。寫個小爬蟲程序可能要大半天的時間。
4.Python:語法優美,代碼簡潔,開發效率高,支持的模塊多。相關的HTTP請求模塊和HTML解析模塊非常豐富。還有Scrapy和Scrapy-redis框架讓我們開發爬蟲變得異常簡單。

準備工具:
1.Python3.6開發環境;
2.PyCharm;
3.虛擬環境。virtualenv/virtualenvwrapper

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章