1、爬蟲入門說明

爬蟲入門說明

簡介

  • 什麼是爬蟲?通俗來說就是通過編程,寫出一個程序。然後這個程序模擬人的操作去各大網站溜達,溜達。看有沒什麼需要的東西,如果有就一次性全部打包帶走。
  • 當你需要在浩如煙海的互聯數據中提取你需要的數據時,爬蟲是一種不錯的方式
  • 寫爬蟲需謹慎,文明使用爬蟲,可參考寫爬蟲嗎?一不留神就進去的那種哦

爬取流程

  1. 向目標網站服務器發送一個請求,目標網站服務器返回給你你請求的數據。
  2. 接收到數據後對數據進行解析,並提取出需要的數據。
  3. 對數據進行儲存,可以使數據庫,也可以是本地文件。

其實你用瀏覽器時也是這個流程

robots協議

你可以把它,理解爲一個君子協議,每個網站都會有自己的robots協議,它告訴你,你可以爬取那些東西,不可以爬取那些東西,整個協議是以道德爲約束力,至於遵守不遵守,就看你自己了。打開某網站的robots協議www.網站名.com/robots.txt

網址=URL ?

URL的格式由三部分組成:協議名://主機名:端口號/網站名稱/目錄/文件名?查詢參數#信息片段

  1. 第一部分是協議(或稱爲服務方式)

  2. 第二部分是存有該資源的主機IP地址(有時也包括端口號)。

  3. 第三部分是主機資源的具體地址,如目錄和文件名等。

大致學習階段

第一階段:requests庫,lxml庫,re庫

第二階段:掌握各種技巧,應對網站的反爬措施

第三階段:scrapy框架,搭建工程化爬蟲(更專業)

第四階段:學習數據庫,大規模爬取、儲存數據。

第五階段:分佈式爬蟲,大規模爬取數據

除非你有志於成爲一名爬蟲工程師,否則不建議深入學習爬蟲,有一句話是這麼說的:爬蟲寫的好,牢飯吃得早。 一般學到第四階段就好了,你要明白爬蟲只是一個過渡,讓你明白一些基礎概念,掌握一些基本的技能,比如說框架,比如說數據庫的使用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章