1. Robots協議的作用與形式
Robots全稱爲Robot Exclusion Standard ,即網絡爬蟲排除標準
作用:網站告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:在網站根目錄下的robots.txt文件
(如果無robots.txt文件,可以隨便爬取該網站的任何內容)
2. Robots協議基本語法
# 註釋,*代表所有,/代表根目錄
User-agent: *
Disallow: /
3. Robots協議的使用
網絡爬蟲:自動或人工識別robots.txt文件,在進行內容爬取
約束性:Robots協議是建議但非約束性,網絡爬蟲可以不遵守,但存在法律風險
4. 對Robots協議的理解
訪問量很小:可以遵守 訪問量較大:建議遵守 |
非商業且偶然:建議遵守 商業利益:必須遵守 |
必須遵守 |
爬取網頁 玩轉網頁 | 爬取網站 爬取系列網站 |
爬取全網 |
(如果一天訪問幾次或者一小時訪問一次,這種不頻繁的爬取,可以不遵守Robots協議)
5. 案例:京東的Robots協議
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider