互聯網協議入門

一、概述

1.1 五層模型

互聯網的實現，分成好幾層。每一層都有自己的功能，就像建築物一樣，每一層都靠下一層支持。

用戶接觸到的，只是最上面的一層，根本沒有感覺到下面的層。要理解互聯網，必須從最下層開始，自下而上理解每一層的功能。

如何分層有不同的模型，有的模型分七層，有的分四層。我覺得，把互聯網分成五層，比較容易解釋。

如上圖所示，最底下的一層叫做”實體層”（Physical Layer），最上面的一層叫做”應用層”（Application Layer），中間的三層（自下而上）分別是”鏈接層”（Link Layer）、”網絡層”（Network Layer）和”傳輸層”（Transport Layer）。越下面的層，越靠近硬件；越上面的層，越靠近用戶。

它們叫什麼名字，其實並不重要。只需要知道，互聯網分成若干層就可以了。

1.2 層與協議

每一層都是爲了完成一種功能。爲了實現這些功能，就需要大家都遵守共同的規則。

大家都遵守的規則，就叫做”協議”（protocol）。

互聯網的每一層，都定義了很多協議。這些協議的總稱，就叫做”互聯網協議”（Internet Protocol Suite）。它們是互聯網的核心，下面介紹每一層的功能，主要就是介紹每一層的主要協議。

二、實體層

我們從最底下的一層開始。

電腦要組網，第一件事要幹什麼？當然是先把電腦連起來，可以用光纜、電纜、雙絞線、無線電波等方式。

這就叫做”實體層”，它就是把電腦連接起來的物理手段。它主要規定了網絡的一些電氣特性，作用是負責傳送0和1的電信號。

三、鏈接層

3.1 定義

單純的0和1沒有任何意義，必須規定解讀方式：多少個電信號算一組？每個信號位有何意義？

這就是”鏈接層”的功能，它在”實體層”的上方，確定了0和1的分組方式。

3.2 以太網協議

早期的時候，每家公司都有自己的電信號分組方式。逐漸地，一種叫做“以太網”（Ethernet）的協議，佔據了主導地位。

以太網規定，一組電信號構成一個數據包，叫做”幀”（Frame）。每一幀分成兩個部分：標頭（Head）和數據（Data）。

“標頭”包含數據包的一些說明項，比如發送者、接受者、數據類型等等；”數據”則是數據包的具體內容。

“標頭”的長度，固定爲18字節。”數據”的長度，最短爲46字節，最長爲1500字節。因此，整個”幀”最短爲64字節，最長爲1518字節。如果數據很長，就必須分割成多個幀進行發送。

3.3 MAC地址

上面提到，以太網數據包的”標頭”，包含了發送者和接受者的信息。那麼，發送者和接受者是如何標識呢？

以太網規定，連入網絡的所有設備，都必須具有”網卡”接口。數據包必須是從一塊網卡，傳送到另一塊網卡。網卡的地址，就是數據包的發送地址和接收地址，這叫做MAC地址。

每塊網卡出廠的時候，都有一個全世界獨一無二的MAC地址，長度是48個二進制位，通常用12個十六進制數表示。

前6個十六進制數是廠商編號，後6個是該廠商的網卡流水號。有了MAC地址，就可以定位網卡和數據包的路徑了。

3.4 廣播

定義地址只是第一步，後面還有更多的步驟。

首先，一塊網卡怎麼會知道另一塊網卡的MAC地址？

回答是有一種ARP協議，可以解決這個問題。這個留到後面介紹，這裏只需要知道，以太網數據包必須知道接收方的MAC地址，然後才能發送。

其次，就算有了MAC地址，系統怎樣才能把數據包準確送到接收方？

回答是以太網採用了一種很”原始”的方式，它不是把數據包準確送到接收方，而是向本網絡內所有計算機發送，讓每臺計算機自己判斷，是否爲接收方。

上圖中，1號計算機向2號計算機發送一個數據包，同一個子網絡的3號、4號、5號計算機都會收到這個包。它們讀取這個包的”標頭”，找到接收方的MAC地址，然後與自身的MAC地址相比較，如果兩者相同，就接受這個包，做進一步處理，否則就丟棄這個包。這種發送方式就叫做”廣播”（broadcasting）。

有了數據包的定義、網卡的MAC地址、廣播的發送方式，”鏈接層”就可以在多臺計算機之間傳送數據了。

四、網絡層

4.1 網絡層的由來

以太網協議，依靠MAC地址發送數據。理論上，單單依靠MAC地址，上海的網卡就可以找到洛杉磯的網卡了，技術上是可以實現的。

但是，這樣做有一個重大的缺點。以太網採用廣播方式發送數據包，所有成員人手一”包”，不僅效率低，而且侷限在發送者所在的子網絡。也就是說，如果兩臺計算機不在同一個子網絡，廣播是傳不過去的。這種設計是合理的，否則互聯網上每一臺計算機都會收到所有包，那會引起災難。

互聯網是無數子網絡共同組成的一個巨型網絡，很像想象上海和洛杉磯的電腦會在同一個子網絡，這幾乎是不可能的。

因此，必須找到一種方法，能夠區分哪些MAC地址屬於同一個子網絡，哪些不是。如果是同一個子網絡，就採用廣播方式發送，否則就採用”路由”方式發送。（”路由”的意思，就是指如何向不同的子網絡分發數據包，這是一個很大的主題，本文不涉及。）遺憾的是，MAC地址本身無法做到這一點。它只與廠商有關，與所處網絡無關。

這就導致了”網絡層”的誕生。它的作用是引進一套新的地址，使得我們能夠區分不同的計算機是否屬於同一個子網絡。這套地址就叫做”網絡地址”，簡稱”網址”。

於是，”網絡層”出現以後，每臺計算機有了兩種地址，一種是MAC地址，另一種是網絡地址。兩種地址之間沒有任何聯繫，MAC地址是綁定在網卡上的，網絡地址則是管理員分配的，它們只是隨機組合在一起。

網絡地址幫助我們確定計算機所在的子網絡，MAC地址則將數據包送到該子網絡中的目標網卡。因此，從邏輯上可以推斷，必定是先處理網絡地址，然後再處理MAC地址。

4.2 IP協議

規定網絡地址的協議，叫做IP協議。它所定義的地址，就被稱爲IP地址。

目前，廣泛採用的是IP協議第四版，簡稱IPv4。這個版本規定，網絡地址由32個二進制位組成。

習慣上，我們用分成四段的十進制數表示IP地址，從0.0.0.0一直到255.255.255.255。

互聯網上的每一臺計算機，都會分配到一個IP地址。這個地址分成兩個部分，前一部分代表網絡，後一部分代表主機。比如，IP地址172.16.254.1，這是一個32位的地址，假定它的網絡部分是前24位（172.16.254），那麼主機部分就是後8位（最後的那個1）。處於同一個子網絡的電腦，它們IP地址的網絡部分必定是相同的，也就是說172.16.254.2應該與172.16.254.1處在同一個子網絡。

但是，問題在於單單從IP地址，我們無法判斷網絡部分。還是以172.16.254.1爲例，它的網絡部分，到底是前24位，還是前16位，甚至前28位，從IP地址上是看不出來的。

那麼，怎樣才能從IP地址，判斷兩臺計算機是否屬於同一個子網絡呢？這就要用到另一個參數”子網掩碼”（subnet mask）。

所謂”子網掩碼”，就是表示子網絡特徵的一個參數。它在形式上等同於IP地址，也是一個32位二進制數字，它的網絡部分全部爲1，主機部分全部爲0。比如，IP地址172.16.254.1，如果已知網絡部分是前24位，主機部分是後8位，那麼子網絡掩碼就是11111111.11111111.11111111.00000000，寫成十進制就是255.255.255.0。

知道”子網掩碼”，我們就能判斷，任意兩個IP地址是否處在同一個子網絡。方法是將兩個IP地址與子網掩碼分別進行AND運算（兩個數位都爲1，運算結果爲1，否則爲0），然後比較結果是否相同，如果是的話，就表明它們在同一個子網絡中，否則就不是。

比如，已知IP地址172.16.254.1和172.16.254.233的子網掩碼都是255.255.255.0，請問它們是否在同一個子網絡？兩者與子網掩碼分別進行AND運算，結果都是172.16.254.0，因此它們在同一個子網絡。

總結一下，IP協議的作用主要有兩個，一個是爲每一臺計算機分配IP地址，另一個是確定哪些地址在同一個子網絡。

4.3 IP數據包

根據IP協議發送的數據，就叫做IP數據包。不難想象，其中必定包括IP地址信息。

但是前面說過，以太網數據包只包含MAC地址，並沒有IP地址的欄位。那麼是否需要修改數據定義，再添加一個欄位呢？

回答是不需要，我們可以把IP數據包直接放進以太網數據包的”數據”部分，因此完全不用修改以太網的規格。這就是互聯網分層結構的好處：上層的變動完全不涉及下層的結構。

具體來說，IP數據包也分爲”標頭”和”數據”兩個部分。

“標頭”部分主要包括版本、長度、IP地址等信息，”數據”部分則是IP數據包的具體內容。它放進以太網數據包後，以太網數據包就變成了下面這樣。

IP數據包的”標頭”部分的長度爲20到60字節，整個數據包的總長度最大爲65,535字節。因此，理論上，一個IP數據包的”數據”部分，最長爲65,515字節。前面說過，以太網數據包的”數據”部分，最長只有1500字節。因此，如果IP數據包超過了1500字節，它就需要分割成幾個以太網數據包，分開發送了。

4.4 ARP協議

關於”網絡層”，還有最後一點需要說明。

因爲IP數據包是放在以太網數據包裏發送的，所以我們必須同時知道兩個地址，一個是對方的MAC地址，另一個是對方的IP地址。通常情況下，對方的IP地址是已知的（後文會解釋），但是我們不知道它的MAC地址。

所以，我們需要一種機制，能夠從IP地址得到MAC地址。

這裏又可以分成兩種情況。第一種情況，如果兩臺主機不在同一個子網絡，那麼事實上沒有辦法得到對方的MAC地址，只能把數據包傳送到兩個子網絡連接處的”網關”（gateway），讓網關去處理。

第二種情況，如果兩臺主機在同一個子網絡，那麼我們可以用ARP協議，得到對方的MAC地址。ARP協議也是發出一個數據包（包含在以太網數據包中），其中包含它所要查詢主機的IP地址，在對方的MAC地址這一欄，填的是FF:FF:FF:FF:FF:FF，表示這是一個”廣播”地址。它所在子網絡的每一臺主機，都會收到這個數據包，從中取出IP地址，與自身的IP地址進行比較。如果兩者相同，都做出回覆，向對方報告自己的MAC地址，否則就丟棄這個包。

總之，有了ARP協議之後，我們就可以得到同一個子網絡內的主機MAC地址，可以把數據包發送到任意一臺主機之上了。

五、傳輸層

5.1 傳輸層的由來

有了MAC地址和IP地址，我們已經可以在互聯網上任意兩臺主機上建立通信。

接下來的問題是，同一臺主機上有許多程序都需要用到網絡，比如，你一邊瀏覽網頁，一邊與朋友在線聊天。當一個數據包從互聯網上發來的時候，你怎麼知道，它是表示網頁的內容，還是表示在線聊天的內容？

也就是說，我們還需要一個參數，表示這個數據包到底供哪個程序（進程）使用。這個參數就叫做”端口”（port），它其實是每一個使用網卡的程序的編號。每個數據包都發到主機的特定端口，所以不同的程序就能取到自己所需要的數據。

“端口”是0到65535之間的一個整數，正好16個二進制位。0到1023的端口被系統佔用，用戶只能選用大於1023的端口。不管是瀏覽網頁還是在線聊天，應用程序會隨機選用一個端口，然後與服務器的相應端口聯繫。

“傳輸層”的功能，就是建立”端口到端口”的通信。相比之下，”網絡層”的功能是建立”主機到主機”的通信。只要確定主機和端口，我們就能實現程序之間的交流。因此，Unix系統就把主機+端口，叫做”套接字”（socket）。有了它，就可以進行網絡應用程序開發了。

5.2 UDP協議

現在，我們必須在數據包中加入端口信息，這就需要新的協議。最簡單的實現叫做UDP協議，它的格式幾乎就是在數據前面，加上端口號。

UDP數據包，也是由”標頭”和”數據”兩部分組成。

“標頭”部分主要定義了發出端口和接收端口，”數據”部分就是具體的內容。然後，把整個UDP數據包放入IP數據包的”數據”部分，而前面說過，IP數據包又是放在以太網數據包之中的，所以整個以太網數據包現在變成了下面這樣：

UDP數據包非常簡單，”標頭”部分一共只有8個字節，總長度不超過65,535字節，正好放進一個IP數據包。

5.3 TCP協議

UDP協議的優點是比較簡單，容易實現，但是缺點是可靠性較差，一旦數據包發出，無法知道對方是否收到。

爲了解決這個問題，提高網絡可靠性，TCP協議就誕生了。這個協議非常複雜，但可以近似認爲，它就是有確認機制的UDP協議，每發出一個數據包都要求確認。如果有一個數據包遺失，就收不到確認，發出方就知道有必要重發這個數據包了。

因此，TCP協議能夠確保數據不會遺失。它的缺點是過程複雜、實現困難、消耗較多的資源。

TCP數據包和UDP數據包一樣，都是內嵌在IP數據包的”數據”部分。TCP數據包沒有長度限制，理論上可以無限長，但是爲了保證網絡的效率，通常TCP數據包的長度不會超過IP數據包的長度，以確保單個TCP數據包不必再分割。

六、應用層

應用程序收到”傳輸層”的數據，接下來就要進行解讀。由於互聯網是開放架構，數據來源五花八門，必須事先規定好格式，否則根本無法解讀。

“應用層”的作用，就是規定應用程序的數據格式。

舉例來說，TCP協議可以爲各種各樣的程序傳遞數據，比如Email、WWW、FTP等等。那麼，必須有不同協議規定電子郵件、網頁、FTP數據的格式，這些應用程序協議就構成了”應用層”。

這是最高的一層，直接面對用戶。它的數據就放在TCP數據包的”數據”部分。因此，現在的以太網的數據包就變成下面這樣。

至此，整個互聯網的五層結構，自下而上全部講完了。這是從系統的角度，解釋互聯網是如何構成的。下一篇，我反過來，從用戶的角度，自上而下看看這個結構是如何發揮作用，完成一次網絡數據交換的。

七、一個小結

先對前面的內容，做一個小結。

我們已經知道，網絡通信就是交換數據包。電腦A向電腦B發送一個數據包，後者收到了，回覆一個數據包，從而實現兩臺電腦之間的通信。數據包的結構，基本上是下面這樣：

發送這個包，需要知道兩個地址：

　　* 對方的MAC地址

　　* 對方的IP地址

有了這兩個地址，數據包才能準確送到接收者手中。但是，前面說過，MAC地址有侷限性，如果兩臺電腦不在同一個子網絡，就無法知道對方的MAC地址，必須通過網關（gateway）轉發。

上圖中，1號電腦要向4號電腦發送一個數據包。它先判斷4號電腦是否在同一個子網絡，結果發現不是（後文介紹判斷方法），於是就把這個數據包發到網關A。網關A通過路由協議，發現4號電腦位於子網絡B，又把數據包發給網關B，網關B再轉發到4號電腦。

1號電腦把數據包發到網關A，必須知道網關A的MAC地址。所以，數據包的目標地址，實際上分成兩種情況：

場景	數據包地址
同一個子網絡	對方的MAC地址，對方的IP地址
非同一個子網絡	網關的MAC地址，對方的IP地址

發送數據包之前，電腦必須判斷對方是否在同一個子網絡，然後選擇相應的MAC地址。接下來，我們就來看，實際使用中，這個過程是怎麼完成的。

八、用戶的上網設置

8.1 靜態IP地址

你買了一臺新電腦，插上網線，開機，這時電腦能夠上網嗎？

通常你必須做一些設置。有時，管理員（或者ISP）會告訴你下面四個參數，你把它們填入操作系統，計算機就能連上網了：

　　* 本機的IP地址
* 子網掩碼
* 網關的IP地址
* DNS的IP地址

下圖是Windows系統的設置窗口。

這四個參數缺一不可，後文會解釋爲什麼需要知道它們才能上網。由於它們是給定的，計算機每次開機，都會分到同樣的IP地址，所以這種情況被稱作”靜態IP地址上網”。

但是，這樣的設置很專業，普通用戶望而生畏，而且如果一臺電腦的IP地址保持不變，其他電腦就不能使用這個地址，不夠靈活。出於這兩個原因，大多數用戶使用”動態IP地址上網”。

8.2 動態IP地址

所謂”動態IP地址”，指計算機開機後，會自動分配到一個IP地址，不用人爲設定。它使用的協議叫做DHCP協議。

這個協議規定，每一個子網絡中，有一臺計算機負責管理本網絡的所有IP地址，它叫做”DHCP服務器”。新的計算機加入網絡，必須向”DHCP服務器”發送一個”DHCP請求”數據包，申請IP地址和相關的網絡參數。

前面說過，如果兩臺計算機在同一個子網絡，必須知道對方的MAC地址和IP地址，才能發送數據包。但是，新加入的計算機不知道這兩個地址，怎麼發送數據包呢？

DHCP協議做了一些巧妙的規定。

8.3 DHCP協議

首先，它是一種應用層協議，建立在UDP協議之上，所以整個數據包是這樣的：

　　（1）最前面的”以太網標頭”，設置發出方（本機）的MAC地址和接收方（DHCP服務器）的MAC地址。前者就是本機網卡的MAC地址，後者這時不知道，就填入一個廣播地址：FF-FF-FF-FF-FF-FF。

　　（2）後面的”IP標頭”，設置發出方的IP地址和接收方的IP地址。這時，對於這兩者，本機都不知道。於是，發出方的IP地址就設爲0.0.0.0，接收方的IP地址設爲255.255.255.255。

　　（3）最後的”UDP標頭”，設置發出方的端口和接收方的端口。這一部分是DHCP協議規定好的，發出方是68端口，接收方是67端口。

這個數據包構造完成後，就可以發出了。以太網是廣播發送，同一個子網絡的每臺計算機都收到了這個包。因爲接收方的MAC地址是FF-FF-FF-FF-FF-FF，看不出是發給誰的，所以每臺收到這個包的計算機，還必須分析這個包的IP地址，才能確定是不是發給自己的。當看到發出方IP地址是0.0.0.0，接收方是255.255.255.255，於是DHCP服務器知道”這個包是發給我的”，而其他計算機就可以丟棄這個包。

接下來，DHCP服務器讀出這個包的數據內容，分配好IP地址，發送回去一個”DHCP響應”數據包。這個響應包的結構也是類似的，以太網標頭的MAC地址是雙方的網卡地址，IP標頭的IP地址是DHCP服務器的IP地址（發出方）和255.255.255.255（接收方），UDP標頭的端口是67（發出方）和68（接收方），分配給請求端的IP地址和本網絡的具體參數則包含在Data部分。

新加入的計算機收到這個響應包，於是就知道了自己的IP地址、子網掩碼、網關地址、DNS服務器等等參數。

8.4 上網設置：小結

這個部分，需要記住的就是一點：不管是”靜態IP地址”還是”動態IP地址”，電腦上網的首要步驟，是確定四個參數。這四個值很重要，值得重複一遍：

　　* 本機的IP地址
* 子網掩碼
* 網關的IP地址
* DNS的IP地址

有了這幾個數值，電腦就可以上網”衝浪”了。接下來，我們來看一個實例，當用戶訪問網頁的時候，互聯網協議是怎麼運作的。

九、一個實例：訪問網頁

9.1 本機參數

我們假定，經過上一節的步驟，用戶設置好了自己的網絡參數：

　　* 本機的IP地址：192.168.1.100
* 子網掩碼：255.255.255.0
* 網關的IP地址：192.168.1.1
* DNS的IP地址：8.8.8.8

然後他打開瀏覽器，想要訪問Google，在地址欄輸入了網址：www.google.com。

這意味着，瀏覽器要向Google發送一個網頁請求的數據包。

9.2 DNS協議

我們知道，發送數據包，必須要知道對方的IP地址。但是，現在，我們只知道網址www.google.com，不知道它的IP地址。

DNS協議可以幫助我們，將這個網址轉換成IP地址。已知DNS服務器爲8.8.8.8，於是我們向這個地址發送一個DNS數據包（53端口）。

然後，DNS服務器做出響應，告訴我們Google的IP地址是172.194.72.105。於是，我們知道了對方的IP地址。

9.3 子網掩碼

接下來，我們要判斷，這個IP地址是不是在同一個子網絡，這就要用到子網掩碼。

已知子網掩碼是255.255.255.0，本機用它對自己的IP地址192.168.1.100，做一個二進制的AND運算（兩個數位都爲1，結果爲1，否則爲0），計算結果爲192.168.1.0；然後對Google的IP地址172.194.72.105也做一個AND運算，計算結果爲172.194.72.0。這兩個結果不相等，所以結論是，Google與本機不在同一個子網絡。

因此，我們要向Google發送數據包，必須通過網關192.168.1.1轉發，也就是說，接收方的MAC地址將是網關的MAC地址。

9.4 應用層協議

瀏覽網頁用的是HTTP協議，它的整個數據包構造是這樣的：

HTTP部分的內容，類似於下面這樣：

　　GET / HTTP/1.1
Host: www.google.com
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 6.1) ……
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip,deflate,sdch
Accept-Language: zh-CN,zh;q=0.8
Accept-Charset: GBK,utf-8;q=0.7,*;q=0.3
Cookie: … …

我們假定這個部分的長度爲4960字節，它會被嵌在TCP數據包之中。

9.5 TCP協議

TCP數據包需要設置端口，接收方（Google）的HTTP端口默認是80，發送方（本機）的端口是一個隨機生成的1024-65535之間的整數，假定爲51775。

TCP數據包的標頭長度爲20字節，加上嵌入HTTP的數據包，總長度變爲4980字節。

9.6 IP協議

然後，TCP數據包再嵌入IP數據包。IP數據包需要設置雙方的IP地址，這是已知的，發送方是192.168.1.100（本機），接收方是172.194.72.105（Google）。

IP數據包的標頭長度爲20字節，加上嵌入的TCP數據包，總長度變爲5000字節。

9.7 以太網協議

最後，IP數據包嵌入以太網數據包。以太網數據包需要設置雙方的MAC地址，發送方爲本機的網卡MAC地址，接收方爲網關192.168.1.1的MAC地址（通過ARP協議得到）。

以太網數據包的數據部分，最大長度爲1500字節，而現在的IP數據包長度爲5000字節。因此，IP數據包必須分割成四個包。因爲每個包都有自己的IP標頭（20字節），所以四個包的IP數據包的長度分別爲1500、1500、1500、560。

9.8 服務器端響應

經過多個網關的轉發，Google的服務器172.194.72.105，收到了這四個以太網數據包。

根據IP標頭的序號，Google將四個包拼起來，取出完整的TCP數據包，然後讀出裏面的”HTTP請求”，接着做出”HTTP響應”，再用TCP協議發回來。

本機收到HTTP響應以後，就可以將網頁顯示出來，完成一次網絡通信。

這個例子就到此爲止，雖然經過了簡化，但它大致上反映了互聯網協議的整個通信過程。

原文地址：http://www.cricode.com/2525.html

互聯網協議入門

Android的按鈕單擊事件及監聽器的實現方式(附實例)

LINUX 硬鏈接與軟鏈接

Linux進程基礎與信號基礎

C++中名字隱藏是什麼？

Linux架構與文件流

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結