HTTP1.1中CHUNKED編碼解析

HTTP1.1中CHUNKED編碼解析

一般HTTP通信時，會使用Content-Length頭信息性來通知用戶代理（通常意義上是瀏覽器）服務器發送的文檔內容長度，該頭信息定義於HTTP1.0協議RFC 1945 10.4章節中。瀏覽器接收到此頭信息後，接受完Content-Length中定義的長度字節後開始解析頁面，但如果服務端有部分數據延遲發送嗎，則會出現瀏覽器白屏，造成比較糟糕的用戶體驗。

解決方案是在HTTP1.1協議中，RFC 2616中14.41章節中定義的Transfer-Encoding: chunked的頭信息，chunked編碼定義在3.6.1中，所有HTTP1.1 應用都支持此使用trunked編碼動態的提供body內容的長度的方式。進行Chunked編碼傳輸的HTTP數據要在消息頭部設置：Transfer-Encoding: chunked表示Content Body將用chunked編碼傳輸內容。根據定義，瀏覽器不需要等到內容字節全部下載完成,只要接收到一個chunked塊就可解析頁面.並且可以下載html中定義的頁面內容,包括js,css,image等。

採用chunked編碼有兩種選擇,一種是設定Server的IO buffer長度讓Server自動flush buffer中的內容，另一種是手動調用IO中的flush函數。不同的語言IO中都有flush功能：

l php: ob_flush(); flush();

l perl: STDOUT->autoflush(1);

l java: out.flush();

l python: sys.stdout.flush()

l ruby: stdout.flush

採用HTTP1.1的Transfer-Encoding:chunked,並且把IO的buffer flush下來,以便瀏覽器更早的下載頁面配套資源。當不能預先確定報文體的長度時，不可能在頭中包含Content-Length域來指明報文體長度，此時就需要通過Transfer-Encoding域來確定報文體長度。

Chunked編碼一般使用若干個chunk串連而成，最後由一個標明長度爲0的chunk標示結束。每個chunk分爲頭部和正文兩部分，頭部內容指定下一段正文的字符總數（非零開頭的十六進制的數字）和數量單位（一般不寫,表示字節）.正文部分就是指定長度的實際內容，兩部分之間用回車換行(CRLF)隔開。在最後一個長度爲0的chunk中的內容是稱爲footer的內容，是一些附加的Header信息（通常可以直接忽略）。

上述解釋過於官方，簡而言之，chunked編碼的基本方法是將大塊數據分解成多塊小數據，每塊都可以自指定長度，其具體格式如下(BNF文法)：

Chunked-Body = *chunk //0至多個chunk

last-chunk //最後一個chunk

trailer //尾部

CRLF //結束標記符

chunk = chunk-size [ chunk-extension ] CRLF

chunk-data CRLF

chunk-size = 1*HEX

last-chunk = 1*("0") [ chunk-extension ] CRLF

chunk-extension= *( ";" chunk-ext-name [ "=" chunk-ext-val ] )

chunk-ext-name = token

chunk-ext-val = token | quoted-string

chunk-data = chunk-size(OCTET)

trailer = *(entity-header CRLF)

解釋：

l Chunked-Body表示經過chunked編碼後的報文體。報文體可以分爲chunk, last-chunk，trailer和結束符四部分。chunk的數量在報文體中最少可以爲0，無上限；

l 每個chunk的長度是自指定的，即，起始的數據必然是16進制數字的字符串，代表後面chunk-data的長度（字節數）。這個16進制的字符串第一個字符如果是“0”，則表示chunk-size爲0，該chunk爲last-chunk,無chunk-data部分。

l 可選的chunk-extension由通信雙方自行確定，如果接收者不理解它的意義，可以忽略。

l trailer是附加的在尾部的額外頭域，通常包含一些元數據（metadata, meta means "about information"），這些頭域可以在解碼後附加在現有頭域之後

下面分析用ethereal抓包使用Firefox與某網站通信的結果（從頭域結束符後開始）：

Address 0.......................... f

000c0 31

000d0 66 66 63 0d 0a ............... // ASCII碼:1ffc/r/n, chunk-data數據起始地址爲000d5

顯然，“1ffc”爲第一個chunk的chunk-size,轉換爲int爲8188。由於1ffc後，馬上就是CRLF,因此沒有chunk-extension。chunk-data的起始地址爲000d5, 計算可知下一塊chunk的起始

地址爲000d5+1ffc + 2=020d3，如下：

020d0 .. 0d 0a 31 66 66 63 0d 0a .... // ASCII碼:/r/n1ffc/r/n

前一個0d0a是上一個chunk的結束標記符，後一個0d0a則是chunk-size和chunk-data的分隔符。

此塊chunk的長度同樣爲8188, 依次類推，直到最後一塊

100e0 0d 0a 31

100f0 65 61 39 0d 0a...... //ASII碼：/r/n/1ea9/r/n

此塊長度爲0x1ea9 = 7849, 下一塊起始爲100f5 + 1ea9 + 2 = 11fa0,如下：

11fa0 30 0d 0a 0d 0a //ASCII碼：0/r/n/r/n

“0”說明當前chunk爲last-chunk, 第一個0d 0a爲chunk結束符。第二個0d0a說明沒有trailer部分，整個Chunk-body結束。

解碼流程：

對chunked編碼進行解碼的目的是將分塊的chunk-data整合恢復成一塊作爲報文體，同時記錄此塊體的長度。

RFC2616中附帶的解碼流程如下：(僞代碼）

length := 0 //長度計數器置0

read chunk-size, chunk-extension (if any) and CRLF //讀取chunk-size, chunk-extension和CRLF

while(chunk-size > 0 )

{ //表明不是last-chunk

read chunk-data and CRLF //讀chunk-size大小的chunk-data,skip CRLF

append chunk-data to entity-body //將此塊chunk-data追加到entity-body後

length := length + chunk-size

read chunk-size and CRLF //讀取新chunk的chunk-size 和 CRLF

}

read entity-header //entity-header的格式爲name:valueCRLF,如果爲空即只有CRLF

while （entity-header not empty) //即，不是隻有CRLF的空行

{

append entity-header to existing header fields

read entity-header

}

Content-Length:=length //將整個解碼流程結束後計算得到的新報文體length，作爲Content-Length域的值寫入報文中

Remove "chunked" from Transfer-Encoding //同時從Transfer-Encoding中域值去除chunked這個標記

length最後的值實際爲所有chunk的chunk-size之和，在上面的抓包實例中，一共有八塊chunk-size爲0x1ffc(8188)的chunk,剩下一塊爲0x1ea9(7849),加起來一共73353字節。
注：對於上面例子中前幾個chunk的大小都是8188,可能是因爲:"1ffc" 4字節，""r"n"2字節，加上塊尾一個""r"n"2字節一共8字節，因此一個chunk整體爲8196,正好可能是發送端一次TCP發送的緩存大小。

最後提供一段PHP版本的chunked解碼代碼：

$chunk_size = (integer)hexdec(fgets( $socket_fd, 4096 ) );

while(!feof($socket_fd) && $chunk_size > 0)

{

$bodyContent .= fread( $socket_fd, $chunk_size );

fread( $socket_fd, 2 ); // skip /r/n
$chunk_size = (integer)hexdec(fgets( $socket_fd, 4096 ) );

}

其C語言的解碼如下，java思路相同

int nBytes;

char* pStart = a; // a中存放待解碼的數據

char* pTemp;

char strlength[10]; //一個chunk塊的長度

chunk : pTemp =strstr(pStart,"/r/n");

if(NULL==pTemp)

{

free(a);

a=NULL;

fclose(fp);

return -1;

}

length=pTemp-pStart;

COPY_STRING(strlength,pStart,length);

pStart=pTemp+2;

nBytes=Hex2Int(strlength); //得到一個塊的長度，並轉化爲十進制

if(nBytes==0)//如果長度爲0表明爲最後一個chunk

{

free(a);

fclose(fp);

return 0;

}

fwrite(pStart,sizeof(char),nBytes,fp);//將nBytes長度的數據寫入文件中

pStart=pStart+nBytes+2; //跳過一個塊的數據以及數據之後兩個字節的結束符

fflush(fp);

goto chunk; //goto到chunk繼續處理

如何將一個十進制數轉化爲十六進制

char *buf = (char *)malloc(100);

char *d = buf;

int shift = 0;

unsigned long copy = 123445677;

while (copy) {

copy >>= 4;

shift++;

}//首先計算轉化爲十六進制後的位數

if (shift == 0)

shift++;

shift <<= 2; //將位數乘於4，如果有兩位的話 shift爲8

while (shift > 0) {

shift -= 4;

*(buf) = hex_chars[(123445677 >> shift) & 0x0F];

buf++;

}

*buf = '/0';

HTTP1.1中CHUNKED編碼解析

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

STL中map用法詳解

HTTP1.1中CHUNKED編碼解析

chunked編碼

看電腦眼睛不酸不脹的好方法

sizeof strlen string.lenth()之例子 string,char,char*,char a[], sizeof,strlen(),str.length()...

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結