【爬蟲】解析-豆瓣網站規範robots.txt
robots.txt
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: Mediapartners-Google
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
解釋
- User-agent(用戶代理)是一種用於標誌特定抓取工具或一組抓取工具的手段
- 注意用戶代理區分大小寫
- 用法爲
User-agent: [user-agent]
- 例如
User-agent: *
表示所有的抓取工具;User-agent: Wandoujia Spider
表示豌豆莢的抓取工具;User-agent: Mediapartners-Google
表示一種Google的抓取工具AdSense,該工具通過訪問網站內容以便於提供相關的廣告
- Disallow(不允許)用於指定抓取工具不能訪問的路徑
- 路徑值需要以"/"開頭,表示根目錄,路徑區分大小寫
- 路徑結尾沒有斜杆表示此項與此文件夾中的內容均匹配。以
/subject_search
爲例,可以匹配爲/subject_search*
及/subject_search/*
(注意*
爲通配符,表示0個或多個有效字符串)
- 路徑結尾有斜杆表示此文件夾中的內容均匹配。以
/forum/
爲例,可以匹配爲/forum/*
,不能匹配/forum*
(此處的通配符*
不包含/
符號)
- 如果未指定路徑,該命令將被忽略
- 用法爲
Disallow: [path]
- 例如
Disallow: /subject_search
表示該抓取工具不可以抓取/subject_search*
及/subject_search/*
路徑的內容;Disallow: /forum/
表示該抓取工具不可以抓取/forum/*
路徑的內容;Disallow: /表示該抓取工具不可以抓取/*
路徑下的所有內容
- Allow(允許)用於指定相應抓取工具可以訪問的路徑
- 路徑值同上
- 用法爲
Allow: [path]
- 例如
Allow: /ads.txt
表示該抓取工具可以抓取/ads.txt
路徑的內容
- Sitemap(站點地圖)是網站管理員用於通知搜索引擎該網站可以爬取頁面內容的一種簡單方式
- Google、Bing和其他主要搜索引擎都支持Sitemap
- Sitemap可以指向站點地圖、站點地圖索引文件或等效網址
- Sitemap可以有多個條目
- 用法爲
Sitemap: [absoluteURL]
- 例如
Sitemap: https://www.douban.com/sitemap_index.xml
及
Sitemap: https://www.douban.com/sitemap_updated_index.xml
指定了豆瓣的站點地圖索引文件及站點地圖索引更新文件
- Crawl-delay()用於指定抓取工具請求抓取的頻率,以秒爲單位
- 用法爲
Crawl-delay: [number]
- 例如
Crawl-delay: 5
表示抓取工具兩次進入站點訪問的間隔時間爲5秒
- 注意:path路徑遇到Disallow和Allow相沖突時,最具體的路徑值優先級更高。例如
Disallow: /
和Allow: /search
同時存在時,結果爲Allow: /search
參考