爬蟲 http協議和Chrome抓包工具

什麼是http和https協議

  1. HTTP協議:全稱是 HyperText Transfer Protocol,中文意思是超文本傳輸協議,是一種發佈和接收HTML頁面的方法。服務器端口號是80
  2. HTTPS協議:是HTTP的加密版本,在HTTP下加入SSL層,服務器端口號是403

在瀏覽器中發送一個http請求的過程

  1. 當用戶在瀏覽器地址欄中輸入一個URL並按回車鍵之後,瀏覽器會向http服務器發送http請求。http請求主要分爲“get”和“post”兩種方法。
  2. 當我們在瀏覽器中輸入URL http://www.baidu.com的時候,瀏覽器發送一個request請求去獲取http://www.baidu.com的html文件,服務器把response文件對象發送回給瀏覽器。
  3. 瀏覽器分析response中的html,發現其中引用了許多其他文件,比如images文件,CSS文件,JS文件,瀏覽器會自動再次發送Request去獲取圖片,CSS文件或着者JS文件。
  4. 當所有文件都下載成功後,網頁會根據html語法結構,完整的顯示出來。

URL解析

URL詳解:URL是Uniform Resource Locator的縮寫,統一資源定位符。
一個URL有以下幾部分構成:

scheme://host:port/path/?query-string=xxx#anchor

  • scheme:代表的是訪問的協議,一般爲http或者https以及ftp等。
  • host:主機名,域名,比如www.baidu.com
  • port:端口號。當你訪問一個網絡的時候,瀏覽器默認使用80端口。
  • path:查找路徑。比如:https://item.jd.com/40468351063.html,後面的40468351063.html就是path
  • query-string:查詢字符串,https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=python&rsv_pq=ada012bc00018917&rsv_t=2637WdXSzepoAL7f7r0vjB58CANn8ZHzUiloyQQrE%2Bf3FlZeufHmXuo2vNw&rqlang=cn&rsv_enter=1&rsv_sug3=7&rsv_sug1=7&rsv_sug7=101&rsv_sug2=0&inputT=2136&rsv_sug4=3071&rsv_sug=1 這裏的wd=python就是查詢字符串
  • anchor:錨點,後臺一般不用管,前端用來做頁面定位的
    在瀏覽器中請求一個url,瀏覽器會對這個url進行一個編碼,除英文字母,數字和部分符號外,其他的全部使用百分號+十六進制碼值進行編碼

常用的請求方法

  1. get:一般情況下,只從服務器獲取數據下來,並不會對服務器資源產生任何影響的時候會使用get請求。
  2. post:向服務器發送數據(登錄)、上傳數據等,會對服務器資源產生影響的時候會使用post請求。
    以上是網站開發中常用的兩種方法。並且一般情況下會遵循使用的原則。但是有的網站和服務器爲了反爬蟲機制,也經常會不按常理出牌,有可能一個應該使用get方法的請求就一定要改成post請求,這個要具體情況具體對待。

如下圖限定請求方式爲:POST
在這裏插入圖片描述

請求常見參數

在http協議中,向服務器發送一個請求,數據分爲三部分,第一個是數據放在URL中,第二個是數據放在body中(在post請求中),第三種就是把數據放在head中。下邊介紹一下網絡爬蟲中經常會用到的一些請求頭參數:

  1. User-Agent:瀏覽器名稱。這個在網絡爬蟲中經常會被使用到。請求一個網頁的時候,服務器通過這個參數就可以知道這個請求是有那種瀏覽器發送的。如果我們通過爬蟲發送請求,那我們的User-Agent就是python,對於那些有反爬蟲機制的網站來說,可以輕易判斷你這個請求是爬蟲,因此我們經常設置這個值爲一些瀏覽器的值,來僞裝我們的爬蟲。
  2. Referer:表明當前這個請求是從哪個url過來的。這個一般也可以用來做反爬蟲機技術,如果不是從指定頁面過來的,那麼就不作相應的響應。
  3. Cookie:http協議是無狀態的,也就是同一個人發送了兩次請求,服務器沒有能力知道這兩個請求是否來自同一個人。因此這時候就用Cookie做標識。一般如果想要做登錄後才能訪問的網站,那麼就要發送Cookie信息了。
    在這裏插入圖片描述

常見的響應狀態碼

分類 分類描述
1** 消息,服務器收到請求,需要請求者繼續執行操作
2** 成功,操作被成功接收並處理
3** 重定向,需要進一步的操作以完成請求
4** 客戶端錯誤,請求包含語法錯誤或無法完成請求
5** 服務器錯誤,服務器在處理請求的過程中發生了錯誤

具體狀態碼

狀態碼 名稱 含義
100 Continue 客戶端應當繼續發送請求。
101 Switching Protocols 切換協議。服務器根據客戶端的請求切換協議。只能切換到更高級的協議,例如,切換到HTTP的新版本協議
200 OK 請求成功。一般用於GET與POST請求 //但是可能返回狀態碼是200,但因爲User-Agent不爲所要求的,則返回一個假的消息
201 Created 已創建。成功請求並創建了新的資源
202 Accepted 已接受。已經接受請求,但未處理完成,處理將異步進行
203 Non-Authoritative Information 非授權信息。請求成功。但返回的meta信息不在原始的服務器,而是一個副本
204 No Content 無內容。服務器成功處理,但未返回內容。在未更新網頁的情況下,可確保瀏覽器繼續顯示當前文檔
205 Reset Content 重置內容。服務器處理成功,用戶終端(例如:瀏覽器)應重置文檔視圖。可通過此返回碼清除瀏覽器的表單域
206 Partial Content 部分內容。服務器成功處理了部分GET請求
300 Multiple Choices 多種選擇。請求的資源可包括多個位置,相應可返回一個資源特徵與地址的列表用於用戶終端(例如:瀏覽器)選擇
301 Moved Permanently 永久移動。請求的資源已被永久的移動到新URI,返回信息會包括新的URI,瀏覽器會自動定向到新URI。今後任何新的請求都應使用新的URI代替
302 Found 臨時移動。與301類似。但資源只是臨時被移動。客戶端應繼續使用原有URI
303 See Other 查看其它地址。與301類似。使用GET和POST請求查看
304 Not Modified 未修改。所請求的資源未修改,服務器返回此狀態碼時,不會返回任何資源。客戶端通常會緩存訪問過的資源,通過提供一個頭信息指出客戶端希望只返回在指定日期之後修改的資源
305 Use Proxy 使用代理。所請求的資源必須通過代理訪問
306 Unused 已經被廢棄的HTTP狀態碼
307 Temporary Redirect 臨時重定向。與302類似。使用GET請求重定向
400 Bad Request 客戶端請求的語法錯誤,服務器無法理解
401 Unauthorized 未授權(請求中未包含身份驗證信息),請求要求用戶的身份認證
402 Payment Required 保留,將來使用
403 Forbidden 服務器理解請求客戶端的請求,但是拒絕執行此請求
404 Not Found 服務器無法根據客戶端的請求找到資源(網頁)。通過此代碼,網站設計人員可設置"您所請求的資源無法找到"的個性頁面
405 Method Not Allowed 客戶端請求中的方法被禁止
406 Not Acceptable 服務器無法根據客戶端請求的內容特性完成請求
407 Proxy Authentication Required 請求要求代理的身份認證,與401類似,但請求者應當使用代理進行授權
408 Request Time-out 服務器等待客戶端發送的請求時間過長,超時
409 Conflict 服務器完成客戶端的PUT請求是可能返回此代碼,服務器處理請求時發生了衝突
410 Gone 客戶端請求的資源已經不存在。410不同於404,如果資源以前有現在被永久刪除了可使用410代碼,網站設計人員可通過301代碼指定資源的新位置
411 Length Required 服務器無法處理客戶端發送的不帶Content-Length的請求信息
412 Precondition Failed 客戶端請求信息的先決條件錯誤
413 Request Entity Too Large 由於請求的實體過大,服務器無法處理,因此拒絕請求。爲防止客戶端的連續請求,服務器可能會關閉連接。如果只是服務器暫時無法處理,則會包含一個Retry-After的響應信息
414 Request-URI Too Large 請求的URI過長(URI通常爲網址),服務器無法處理
415 Unsupported Media Type 服務器無法處理請求附帶的媒體格式
416 Requested range not satisfiable 客戶端請求的範圍無效
417 Expectation Failed 服務器無法滿足Expect的請求頭信息
500 Internal Server Error 服務器內部錯誤,無法完成請求
501 Not Implemented 服務器不支持請求的功能,無法完成請求
502 Bad Gateway 充當網關或代理的服務器,從遠端服務器接收到了一個無效的請求
503 Service Unavailable 由於超載或系統維護,服務器暫時的無法處理客戶端的請求。延時的長度可包含在服務器的Retry-After頭信息中
504 Gateway Time-out 充當網關或代理的服務器,未及時從遠端服務器獲取請求
505 HTTP Version not supported 服務器不支持請求的HTTP協議的版本,無法完成處理
  1. 200:請求正常,服務器正常的返回數據
  2. 301:永久重定向,比如在訪問www.jingdong.com的時候會重定向到www.jd.com
  3. 302:臨時重定向。比如在訪問一個需要登錄的頁面上的時候,而此時沒登陸,那麼就會重定向到登錄頁面
  4. 400:請求的url在服務器上找不到
  5. 403:服務器拒絕訪問,權限不夠
  6. 500:服務器內部錯誤。可能是服務器出現bug了

Chrome抓包工具

網頁右鍵檢查
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
本文部分信息是轉載,可以當做筆記看看

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章