Python網絡爬蟲學習筆記(二)——Robots協議

1. Robots協議的作用與形式

Robots全稱爲Robot Exclusion Standard ,即網絡爬蟲排除標準

作用:網站告知網絡爬蟲哪些頁面可以抓取,哪些不行

形式:在網站根目錄下的robots.txt文件

(如果無robots.txt文件,可以隨便爬取該網站的任何內容)

2. Robots協議基本語法

# 註釋,*代表所有,/代表根目錄

User-agent: *

Disallow: /

3. Robots協議的使用

網絡爬蟲:自動或人工識別robots.txt文件,在進行內容爬取

約束性:Robots協議是建議但非約束性,網絡爬蟲可以不遵守,但存在法律風險

4. 對Robots協議的理解

訪問量很小:可以遵守

訪問量較大:建議遵守

非商業且偶然:建議遵守

商業利益:必須遵守

必須遵守
爬取網頁 玩轉網頁 爬取網站 爬取系列網站

爬取全網

(如果一天訪問幾次或者一小時訪問一次,這種不頻繁的爬取,可以不遵守Robots協議)

5. 案例:京東的Robots協議

https://www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章