HTTP協議詳解

HTTP協議相關詳解

--------------------------------------------------------------------------------------------------------------------------------------------

一、

ARPAnet是互聯網的前身

1987年錢天白建立起一個網絡節點，通過國際長途電話撥號連接國際互聯網

1990年錢天白代表中國正式在國際互聯網絡信息中心的前身DDN-NIC註冊等急了我國的頂級域名CN，並且從此開通了使用裝過頂級域名CN的國際電子郵件服務

1993年3月租用AT&T公司的64K專線正式開通，這條專線是我國部分連入Internet的第一根專線

1994年實現與互聯網的全功能連接，被國際上正式承認爲有互聯網的國家

1996年開始提供服務

二、

三、跨Ineternet的主機間通訊

1、在建立通信連接的每一端，進程間的傳輸要有兩個標誌

2、ip地址和端口號，合稱爲套接字地址socket address

3、客戶機套接字地址定義了一個唯一的客戶進程

4、服務器套接字地址定義了一個唯一的服務器進程

5、httpd默認80端口

四、socket套接字

1、Socket：套接字，進程間通信IPC的一種實現，允許位於不同主機（或同一主機）上不同進程之間進行通信和數據交換

2、Socket API：封裝了內核中所提供的socket通信相關的系統調用

3、Socket Domain：根據其所使用的地址

AF_INET：Address Family，IPv4

AF_INET6：IPv6

AF_UNIX：同一主機上不同進程之間通信時使用

4、Socket Type：根據使用的傳輸層協議

SOCK_STREAM：流，tcp套接字，可靠地傳遞、面向連接

SOCK_DGRAM：數據報，udp套接字，不可靠地傳遞、無連接

SOCK_RAW: 裸套接字,無須tcp或udp,APP直接通過IP包通信

5、Socket套接字函數

6、套接字相關的系統調用：

socket(): 創建一個套接字

bind()：綁定IP和端口

listen()：監聽

accept()：接收請求

connect()：請求連接建立

write()：發送

read()：接收

close(): 關閉連接

五、再次說明端口號

因此某些服務端口號比較小，小於1023時候，普通用戶無法直接開啓

六、HTTP服務通信過程

1、HTTP服務通信：上網打開一個網頁時，當網頁打開後將斷開，釋放服務器資源，這樣可以達到更多的網站訪問

2、解封裝流程

七、HTTP術語

http：Hyper Text Transfer Protocol，超文本傳輸協議，tcp 80端口

html：Hyper Text Markup Language，超文本標記語言，編程語言

CSS：Cascading Style Sheet，層疊樣式表，定義某個標準，可以應用到很多網頁上，按照它定義的標準執行

js：javascript，和java沒關係

MIME：Multipurpose Internet Mail Extensions，多用途互聯網郵件擴展，支持視頻圖片等多媒體格式，查看文件位置/etc/mime.types

八、HTTP協議

1、http/0.9：1991，原型版本，只有一個命令GET

2、http/1.0：1996年，支持cache，MIME，method，引入了POST命令和HEAD命令

3、http/1.1：1997年，支持持久連接，現在主流

(1)持久連接：TCP連接默認不關閉，可以被多個請求複用，對於同一個域名，大多數瀏覽器允許同時建立6個持久連接

(2)引入了管道機制（pipelining），即在同一個TCP連接裏，客戶端可以同時發送多個請求，進一步改進了HTTP協議的效率

(3)同一個TCP連接裏，所有的數據通信是按次序進行的。服務器只能順序處理迴應，前面的迴應慢，會有許多請求排隊，造成"隊頭堵塞"（Head-of-line blocking）

(4)爲避免上述問題，兩種方法：一是減少請求數，二是同時多開持久連接。網頁優化技巧，如合併腳本和樣式表、將圖片嵌入CSS代碼、域名分片（domain sharding）等

(5)HTTP 協議不帶有狀態，每次請求都必須附上所有信息。請求的很多字段都是重複的，浪費帶寬，影響速度

4、Spdy：2009年，谷歌研發解決http/1.1效率不高的問題

5、http/2.0：2015年

(1)頭信息和數據體都是二進制，稱爲頭信息幀和數據幀

(2)複用TCP連接，在一個連接裏，客戶端和瀏覽器都可以同時發送多個請求或迴應，且不用按順序一一對應，避免了“隊頭堵塞“,此雙向的實時通信稱爲多工（Multiplexing）

(3)引入頭信息壓縮機制（header compression）,頭信息使用gzip或compress壓縮後再發送；客戶端和服務器同時維護一張頭信息表，所有字段都會存入這個表，生成一個索引號，不發送同樣字段，只發送索引號，提高速度

(4)HTTP/2 允許服務器未經請求，主動向客戶端發送資源，即服務器推送（server push）

九、HTTP工作機制

1、工作機制

http請求：http request

http響應：http request

一次http事務：請求<-->響應

工作在應用層，基於tcp協議

2、Web資源：web resource

一個網頁由多個資源構成，打開一個頁面，會有多個資源展示出來，但是每個資源都要單獨請求。因此，一個“Web 頁面”通常並不是單個資源，而是一組資源的集合

(1)靜態文件：無需服務端做出額外處理，文件後綴：.html, .txt, .jpg, .js, .css, .mp3, .avi

(2)動態文件：服務端執行程序，返回執行的結果，文件後綴：.php, .jsp ,.asp

3、提高HTTP工作性能

(1)並行連接：通過多條TCP連接發起併發的HTTP請求

(2)持久連接：keep-alive，長連接，重用TCP連接，以消除連接和關閉的時延,以事務個數和時間來決定是否關閉連接，只建立一次TCP連接，一次三次握手和四次揮手，但後續會傳很多資源

(3)管道化連接：通過共享TCP連接發起併發的HTTP請求

(4)複用的連接：交替傳送請求和響應報文（實驗階段）

十、URI

URI: Uniform Resource Identifier 統一資源標識，分爲URL和URN

(1)URN: Uniform Resource Naming，統一資源命名，比如說， P2P下載（類似人人爲我，我爲人人）使用的磁力鏈接是URN的一種實現，下載磁力鏈接生成的種子時候，會搜索網絡上其它主機誰有該資源，進行並行下載

(2)URL: Uniform Resorce Locator，統一資源定位符，用於描述某服務器某特定資源位置

(3)兩者區別：URN如同一個人的名稱，而URL代表一個人的住址。換言之，URN定義某事物的身份，而URL提供查找該事物的方法。URN僅用於命名，而不指定地址

十一、URL

1、scheme：scheme，驗證，方案，訪問服務器以獲取資源時要使用哪種協議

2、user：用戶，某些方案訪問資源時需要的用戶名

3、password：密碼，用戶對應的密碼，中間用：分隔

4、Host：主機，資源宿主服務器的主機名或IP地址

5、port：端口,資源宿主服務器正在監聽的端口號，很多方案有默認端口號

6、path：路徑,服務器資源的本地名，由一個/將其與前面的URL組件分隔

7、params：參數，指定輸入的參數，參數爲名/值對，多個參數，用;分隔

8、query：查詢，傳遞參數給程序，如數據庫，用？分隔,多個查詢用&分隔

9、frag：片段,一小片或一部分資源的名字，此組件在客戶端使用，用#分隔

十二、網址訪問量

1、IP(獨立IP)：即Internet Protocol,指獨立IP數。一天內來自相同客戶機IP地址只計算一次，記錄遠程客戶機IP地址的計算機訪問網站的次數，是衡量網站流量的重要指標

2、PV(訪問量)：即Page View, 頁面瀏覽量或點擊量，用戶每次刷新即被計算一次，PV反映的是瀏覽某網站的頁面數，PV與來訪者的數量成正比，PV並不是頁面的來訪者數量，而是網站被訪問的頁面數量

3、UV(獨立訪客)：即Unique Visitor,訪問網站的一臺電腦爲一個訪客。一天內相同的客戶端只被計算一次。可以理解成訪問某網站的電腦的數量。網站判斷來訪電腦的身份是通過來訪電腦的cookies實現的。如果更換了IP後但不清除cookies，再訪問相同網站，該網站的統計中UV數是不變的

4、網站統計：http://www.alexa.cn/rank/

5、QPS：request per second，每秒請求數

6、PV，QPS，併發連接數換算公式

(1)QPS=PV*頁面衍生連接次數/統計時間（86400）

頁面衍生連接次數：頁面上的圖片視頻等資源數

(2)併發連接數=QPS*http平均響應時間

7、峯值時間：每天80%的訪問集中在20%的時間裏，這20%時間爲峯值時間，二八法則

8、峯值時間每秒請求數(QPS)=(總PV數*頁面衍生連接次數*80%/(每天秒數*20%)

十三、web服務請求處理步驟

1、客戶端向服務器發起請求，請求裏帶有數據報文頭部，request httpd header，而請求報文頭部裏會帶有method方法（GET、POST、PUT、HEAD、DELETE等）

2、一次完整的http請求處理過程

(1)建立連接：接收或拒絕連接請求

(2)接收請求：接收客戶端請求報文中對某資源的一次請求的過程

Web訪問響應模型（Web I/O）

單進程I/O模型：啓動一個進程處理用戶請求，而且一次只處理一個，多個請求被串行響應

多進程I/O模型：並行啓動多個進程,每個進程響應一個連接請求

複用I/O結構：啓動一個進程，同時響應N個連接請求

實現方法：多線程模型和事件驅動

多線程模型：一個進程生成N個線程，每線程響應一個連接請求

事件驅動：一個進程處理N個請求

複用的多進程I/O模型：啓動M個進程，每個進程響應N個連接請求，同時接收M*N個請求

(3)處理請求：服務器對請求報文進行解析，並獲取請求的資源及請求方法等相關信息，根據方法，資源，首部和可選的主體部分對請求進行處理。注：HTTP常用請求方式，Method：GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

(4)、訪問資源：服務器獲取請求報文中請求的資源web服務器，即存放了web資源的服務器，負責向請求者提供對方請求的靜態資源，或動態運行後生成的資源。注：web服務器資源路徑映射方式：docroot、alias、虛擬主機docroot、用戶家目錄docroot

(5)構建響應報文：一旦Web服務器識別除了資源，就執行請求方法中描述的動作，並返回響應報文。響應報文中包含響應狀態碼、響應首部，如果生成了響應主體的話，還包括響應主體

1）響應實體：如果事務處理產生了響應主體，就將內容放在響應報文中回送過去。響應報文中通常包括：

描述了響應主體MIME類型的Content-Type首部

描述了響應主體長度的Content-Length

實際報文的主體內容

2）URL重定向：web服務構建的響應並非客戶端請求的資源，而是資源另外一個訪問路徑

3）MIME類型：

Web服務器要負責確定響應主體的MIME類型。多種配置服務器的方法可將MIME類型與資源管理起來

魔法分類：Apache web服務器可以掃描每個資源的內容，並將其與一個已知模式表(被稱爲魔法文件)進行匹配，以決定每個文件的MIME類型。這樣做可能比較慢，但很方便，尤其是文件沒有標準擴展名時

顯式分類：可以對Web服務器進行配置，使其不考慮文件的擴展名或內容，強制特定文件或目錄內容擁有某個MIME類型

類型協商：有些Web服務器經過配置，可以以多種文檔格式來存儲資源。在這種情況下，可以配置Web服務器，使其可以通過與用戶的協商來決定使用哪種格式(及相關的MIME類型)"最好"

(6)發送響應報文

Web服務器通過連接發送數據時也會面臨與接收數據一樣的問題。服務器可能有很多條到各個客戶端的連接，有些是空閒的，有些在向服務器發送數據，還有一些在向客戶端回送響應數據。服務器要記錄連接的狀態，還要特別注意對持久連接的處理。對非持久連接而言，服務器應該在發送了整條報文之後，關閉自己這一端的連接。對持久連接來說，連接可能仍保持打開狀態，在這種情況下，服務器要正確地計算Content-Length首部，不然客戶端就無法知道響應什麼時候結束了

(7)記錄日誌

最後，當事務結束時，Web服務器會在日誌文件中添加一個條目，來描述已執行的事務

十四、http協議

服務器無法持續追蹤訪問者來源

解決http協議無狀態方法

cookie 客戶端存放，一個cookie文件4K，裏面的東西是鍵值對（name:value）

胖cookie：把所有信息全放在cookie裏

瘦cookie：只放關鍵的信息，唯一的id信息，根據id信息從服務器端的session中查找

session 服務端存放

十五、HTTP請求報文

十六、HTTP響應報文

十七、報文解釋

報文語法格式：

1、request報文

<entity-body>

2、response報文

<entity-body>

3、method: 請求方法，標明客戶端希望服務器對資源執行的動作

GET、HEAD、POST等

4、version:

HTTP/<major>.<minor>

5、status:

三位數字，如200，301, 302, 404, 502; 標記請求處理過程中發生的情況

6、reason-phrase：

狀態碼所標記的狀態的簡要描述

7、headers：

每個請求或響應報文可包含任意個首部；每個首部都有首部名稱，後面跟一個冒號，而後跟一個可選空格，接着是一個值

8、entity-body：請求時附加的數據或響應時附加的數據

9、Method 方法：

GET：從服務器獲取一個資源

HEAD：只從服務器獲取文檔的響應首部

POST：向服務器輸入數據，通常會再由網關程序繼續處理

PUT：將請求的主體部分存儲在服務器中，如上傳文件

DELETE：請求刪除服務器上指定的文檔

TRACE：追蹤請求到達服務器中間經過的代理服務器

OPTIONS：請求服務器返回對指定資源支持使用的請求方法

10、協議查看或分析的工具：tcpdump, wireshark,tshark

十八、常見狀態碼

1、狀態碼分類

1xx：100-101信息提示

2xx：200-206成功

3xx：300-305重定向

4xx：400-415錯誤類信息，客戶端錯誤

5xx：500-505錯誤類信息，服務器端錯誤

2、常用狀態碼

200：成功，請求數據通過響應報文的entity-body部分發送;OK

301：請求的URL指向的資源已經被刪除；但在響應報文中通過首部Location指明瞭資源現在所處的新位置；Moved Permanently，永久重定向，該域名將被淘汰

302：響應報文Location指明資源臨時新位置Moved Temporarily，臨時重定向，域名保留

304：客戶端發出了條件式請求，但服務器上的資源未曾發生改變，則通過響應此響應狀態碼通知客戶端；Not Modified，利用瀏覽器自身的緩存進行響應

401：需要輸入賬號和密碼認證方能訪問資源；Unauthorized

403：請求被禁止；Forbidden

404：服務器無法找到客戶端請求的資源；Not Found

500：服務器內部錯誤；Internal Server Error

502：代理服務器從後端服務器收到了一條僞響應，如無法連接到網關；Bad Gateway

503：服務不可用，臨時服務器維護或過載，服務器無法處理請求

504：網關超時

十九、HTTP首部字段

1、HTTP 首部字段包含的信息最爲豐富。首部字段同時存在於請求和響應報文內，並涵蓋HTTP 報文相關的內容信息。使用首部字段是爲了給客服端和服務器端提供報文主體大小、所使用的語言、認證信息等內容

2、首部字段結構HTTP 首部字段是由首部字段名和字段值構成的，中間用冒號“：”分隔

3、字段值對應單個HTTP 首部字段可以有多個值

4、報文首部中出現了兩個或以上具有相同首部字段名的首部字段時，在規範內尚未明確，根據瀏覽器內部處理邏輯的不同，優先處理的順序可能不同，結果可能並不一致

二十、HTTP協議首部

1、首部的分類：

(1)通用首部:請求報文和響應報文兩方都會使用的首部

(2)請求首部:從客戶端向服務器端發送請求報文時使用的首部。補充了請求的附加內容、客戶端信息、請求內容相關優先級等信息

(3)響應首部：從服務器端向客戶端返回響應報文時使用的首部。補充了響應的附加內容，也會要求客戶端附加額外的內容信息

(4)實體首部：針對請求報文和響應報文的實體部分使用的首部。補充了資源內容更新時間等與實體有關的的信息

(5)擴展首部

2、通用首部：

Date: 報文的創建時間

Connection：連接狀態，如keep-alive, close

Via：顯示報文經過的中間節點（代理，網關）

Cache-Control：控制緩存，如緩存時長

MIME-Version:發送端使用的MIME版本

Warning：錯誤通知

二十一、http協議

1、請求首部：

Accept：通知服務器自己可接受的媒體類型

Accept-Charset：客戶端可接受的字符集

Accept-Encoding：客戶端可接受編碼格式，如gzip

Accept-Language：客戶端可接受的語言

Client-IP: 請求的客戶端IP

Host: 請求的服務器名稱和端口號

Referer：跳轉至當前URI的前一個URL

User-Agent：客戶端代理，瀏覽器版本

2、條件式請求首部：

Expect：允許客戶端列出某請求所要求的服務器行爲

If-Modified-Since：自從指定的時間之後，請求的資源是否發生過修改

If-Unmodified-Since：與上面相反

If-None-Match：本地緩存中存儲的文檔的ETag標籤是否與服務器文檔的Etag不匹配

If-Match：與上面相反

3、安全請求首部：

Authorization：向服務器發送認證信息，如賬號和密碼

Cookie: 客戶端向服務器發送cookie

4、代理請求首部：

Proxy-Authorization: 向代理服務器認證

5、響應首部：

信息性：

Age：從最初創建開始，響應持續時長

Server：服務器程序軟件名稱和版本

協商首部：某資源有多種表示方法時使用

Accept-Ranges：服務器可接受的請求範圍類型

Vary：服務器查看的其它首部列表

安全響應首部：

Set-Cookie：向客戶端設置cookie

WWW-Authenticate：來自服務器對客戶端的質詢列表

6、實體首部：

Allow: 列出對此資源實體可使用的請求方法

Location：告訴客戶端真正的實體位於何處

Content-Encoding:對主體執行的編碼

Content-Language:理解主體時最適合的語言

Content-Length: 主體的長度

Content-Location: 實體真正所處位置

Content-Type：主體的對象類型，如text

緩存相關：

ETag：實體的擴展標籤

Expires：實體的過期時間

Last-Modified：最後一次修改的時間

二十二、APR

APR：apache運行的可移植庫，apache基於apr開發，不直接面對操作系統，各系統針對各系統開發各自APR，他們最後開發出來了一個共同的APR的API接口，apache就基於這個APR的API接口之上，apache的其他應用軟件也在這個接口上

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

CentOS環境實驗目錄索引

MariaDB數據庫主從架構和配置優化

MariaDB數據庫函數、存儲過程和觸發器

MariaDB數據庫存儲引擎、索引和EXPLAIN

MariaDB數據庫基本概念

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結