爬蟲入門說明
簡介
- 什麼是爬蟲?通俗來說就是通過編程,寫出一個程序。然後這個程序模擬人的操作去各大網站溜達,溜達。看有沒什麼需要的東西,如果有就一次性全部打包帶走。
- 當你需要在浩如煙海的互聯數據中提取你需要的數據時,爬蟲是一種不錯的方式
- 寫爬蟲需謹慎,文明使用爬蟲,可參考寫爬蟲嗎?一不留神就進去的那種哦
爬取流程
- 向目標網站服務器發送一個請求,目標網站服務器返回給你你請求的數據。
- 接收到數據後對數據進行解析,並提取出需要的數據。
- 對數據進行儲存,可以使數據庫,也可以是本地文件。
其實你用瀏覽器時也是這個流程
robots協議
你可以把它,理解爲一個君子協議,每個網站都會有自己的robots協議,它告訴你,你可以爬取那些東西,不可以爬取那些東西,整個協議是以道德爲約束力,至於遵守不遵守,就看你自己了。打開某網站的robots協議www.網站名.com/robots.txt
網址=URL ?
URL的格式由三部分組成:協議名://主機名:端口號/網站名稱/目錄/文件名?查詢參數#信息片段
-
第一部分是協議(或稱爲服務方式)
-
第二部分是存有該資源的主機IP地址(有時也包括端口號)。
-
第三部分是主機資源的具體地址,如目錄和文件名等。
大致學習階段
第一階段:requests庫,lxml庫,re庫
第二階段:掌握各種技巧,應對網站的反爬措施
第三階段:scrapy框架,搭建工程化爬蟲(更專業)
第四階段:學習數據庫,大規模爬取、儲存數據。
第五階段:分佈式爬蟲,大規模爬取數據
除非你有志於成爲一名爬蟲工程師,否則不建議深入學習爬蟲,有一句話是這麼說的:爬蟲寫的好,牢飯吃得早。 一般學到第四階段就好了,你要明白爬蟲只是一個過渡,讓你明白一些基礎概念,掌握一些基本的技能,比如說框架,比如說數據庫的使用。