Python網絡爬蟲學習筆記（二）——Robots協議

原創

2019-04-05 22:41

1. Robots協議的作用與形式

Robots全稱爲Robot Exclusion Standard ，即網絡爬蟲排除標準

作用：網站告知網絡爬蟲哪些頁面可以抓取，哪些不行

形式：在網站根目錄下的robots.txt文件

（如果無robots.txt文件，可以隨便爬取該網站的任何內容）

2. Robots協議基本語法

# 註釋，*代表所有，/代表根目錄

User-agent: *

Disallow: /

3. Robots協議的使用

網絡爬蟲：自動或人工識別robots.txt文件，在進行內容爬取

約束性：Robots協議是建議但非約束性，網絡爬蟲可以不遵守，但存在法律風險

4. 對Robots協議的理解

訪問量很小：可以遵守

訪問量較大：建議遵守

非商業且偶然：建議遵守

商業利益：必須遵守

必須遵守

爬取網頁玩轉網頁

爬取網站爬取系列網站

爬取全網

（如果一天訪問幾次或者一小時訪問一次，這種不頻繁的爬取，可以不遵守Robots協議）

5. 案例：京東的Robots協議

https://www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

微信小程序之藍牙 BLE 踩坑記錄微信小程序之藍牙 BLE 踩坑記錄

微信小程序之藍牙 BLE 踩坑記錄前言前段時間接手了一個微信小程序的開發，主要使用了小程序在今年 3 月開放的藍牙 API ，此過程踩坑無數，特此記錄一下跳坑過程。順便開了另一個相關的小項目，歡迎 start 和 fork： B

不及格的程序員-八神

2022-11-01 14:10:27

被鄙視做不出3D效果的一天

UI設計點兒3D效果，切圖片後給前端用，前端按照圖片做出靜態效果，結果項目上不滿意。沒錯是我太菜了，菜的一批。心裏已經燃起學習three.js的慾望。

2020-07-08 12:31:12

opencv 加載tensorflow pb模型

opencv加載的pb模型必須是用tf.layers 和 tf.nn 下的api構建的,使用slim會在加載時報未知的layer的錯誤基本流程: 1.加載pb bool CardDetect::load_model(string mo

2020-07-08 12:23:28

Redis 數據持久化方案

Redis 數據持久化方案一、持久化方案 RDB（Redis DataBase）：指定的時間間隔內保存數據快照（SNAPSHOTTING），fork出子進程，之後再由子進程完成這些持久化的工作； AOF（Append Only

2020-07-08 12:09:41

GitHub中常用高頻操作

GitHub 常用命令建立克隆已經存在的一個版本庫 $ git clone ssh://[email protected]/repository.git(SSH協議) $ git clone https://github.co

不如烂笔头

2020-07-08 11:54:44

a標籤中使用onclick提示function未定義

<a href="javascript:;" onclick="text()">leave a message</a> 今天做東西的時候，發現在a標籤中使用onclick觸發函數，一直報錯，顯示function未定義，開始還以爲

2020-07-08 11:27:27

MCU初始化流程——從上電到main()之間

說明：以下介紹示例的MCU地址空間如下： ROM空間爲：0x0000 0000 – 0x0000 8000 RAM空間爲：0x2000 0000 – 0x2000 2000

2020-07-08 11:00:06

C語言實現的json解析程序

只有一個頭文件和一個源文件，僅使用C語言標準庫。作用就是讀取json文件，然後解析爲若干個互相關聯的結構，結構如下： typedef enum json_st { djson_string = 1, djson_number,

2020-07-08 10:35:53

手機驗證碼60s等待

html: <div class="input"> <input class="tel input_all" type="text" name="tel" placeholder="手機號"> </div> <div cl

2020-07-08 10:28:07

啓用了ARC技術

Xcode4.2(iOS 5)以後啓用了ARC技術，雖然4.2以後版本仍然可以不開啓ARC,但是我們在建工程的時候有時爲了不想管理內存然後就啓用了ARC,但是再開發過程中需要用到第三開發類庫，而這些第三方類庫或是沒做更新而不支持AR

2020-07-08 10:22:45

ios7 xib 適配

</pre><span style="font-family:'Comic Sans MS'; font-size:18px"></span><p></p><pre name="code" class="objc">如果你已經下載了x

2020-07-08 10:22:45

iOS實現本地通知

本地通知，local notification，用於基於時間行爲的通知，比如有關日曆或者todo列表的小應用。另外，應用如果在後臺執行，iOS允許它在受限的時間內運行，它也會發現本地通知有用。比如，一個應用，在後臺運行，嚮應用的服務器端

2020-07-08 10:22:45

smtplib Python發送郵件

smtplib發送郵件郵件郵件 # smtplib 郵件的發信動作 import smtplib # email 郵件內容 from email.mime.text import MIMEText from email.head

2020-07-08 09:49:38

react生命週期函數出場順序-應用場景

生命週期函數圖生命週期函數應用場景頁面首次掛載 componentWillMount 在組件即將被掛載到頁面的時刻自動執行，還沒被掛載到頁面，僅首次被掛載時被執行，輸入之後不會執行順序：componentWillMoun

2020-07-08 09:49:38

Linux Python Flask Nginx Gunicorn MySQL Online

Linux環境 Flask Nginx Gunicorn MySQL 部署NginxFlaskGunicornmysql部署成功後 Nginx Linux安裝nginx #安裝好Nginx之後先改配置文件再啓動，若啓動了修改重啓即

2020-07-08 09:49:25

24小時熱門文章

最新文章

最新評論文章