Python網絡01 原始Python服務器

轉自:http://www.cnblogs.com/vamei/archive/2012/10/30/2744955.html

之前我的Python教程中有人留言,表示只學Python沒有用,必須學會一個框架(比如Django和web.py)才能找到工作。而我的想法是,掌握一個類似於框架的高級工具是有用的,但是基礎的東西可以讓你永遠不被淘汰。不要被工具限制了自己的發展。今天,我在這裏想要展示的,就是不使用框架,甚至不使用Python標準庫中的高級包,只使用標準庫中的socket接口(我不是很明白套接字這個翻譯,所以使用socket的英文名字),寫一個Python服務器。

 

在當今Python服務器框架 (framework, 比如Django, Twisted, web.py等等) 橫行的時代,從底層的socket開始寫服務器似乎是一個出力不討好的笨方法。框架的意義在於掩蓋底層的細節,提供一套對於開發人員更加友好的API,並處理諸如MVC的佈局問題。框架允許我們快速的構建一個成型而且成熟的Python服務器。然而,框架本身也是依賴於底層(比如socket)。對於底層socket的瞭解,不僅可以幫助我們更好的使用框架,更可以讓我們明白框架是如何設計的。更進一步,如果擁有良好的底層socket編程知識和其他系統編程知識,你完全可以設計並開發一款自己的框架。如果你可以從底層socket開始,實現一個完整的Python服務器,支持用戶層的協議,並處理好諸如MVC(Model-View-Control)、多線程(threading)等問題,並整理出一套清晰的函數或者類,作爲接口(API)呈現給用戶,你就相當於設計了一個框架。

 

socket接口是實際上是操作系統提供系統調用。socket的使用並不侷限於Python語言,你可以用C或者JAVA來寫出同樣的socket服務器,而所有語言使用socket的方式都類似(Apache就是使用C實現的服務器)。而你不能跨語言的使用框架。框架的好處在於幫你處理了一些細節,從而實現快速開發,但同時受到Python本身性能的限制。我們已經看到,許多成功的網站都是利用動態語言(比如Python, Ruby或者PHP,比如twitter和facebook)快速開發,在網站成功之後,將代碼轉換成諸如C和JAVA這樣一些效率比較高的語言,從而讓服務器能更有效率的面對每天億萬次的請求。在這樣一些時間,底層的重要性,就遠遠超過了框架。

 

下面的一篇文章雖然是在談JAVA,但我覺得也適用於Python的框架之爭。

http://yakovfain.com/2012/10/11/the-degradation-of-java-developers/

 

1. TCP/IP和socket簡介

回到我們的任務。我們需要對網絡傳輸,特別是TCP/IP協議socket有一定的瞭解。socket是進程間通信的一種方法 (參考Linux進程間通信),它是基於網絡傳輸協議的上層接口。socket有許多種類型,比如基於TCP協議或者UDP協議(兩種網絡傳輸協議)。其中又以TCP socket最爲常用。TCP socket與雙向管道(duplex PIPE)有些類似,一個進程向socket的一端寫入或讀取文本流,而另一個進程可以從socket的另一端讀取或寫入,比較特別是,這兩個建立socket通信的進程可以分別屬於兩臺不同的計算機。所謂的TCP協議,就是規定了一些通信的守則,以便在網絡環境下能夠有效實現上述進程間通信過程。雙向管道(duplex PIPE)存活於同一臺電腦中,所以不必區分兩個進程的所在計算機的地址,而socket必須包含有地址信息,以便實現網絡通信。一個socket包含四個地址信息: 兩臺計算機的IP地址和兩個進程所使用的端口(port)。IP地址用於定位計算機,而port用於定位進程 (一臺計算機上可以有多個進程分別使用不同的端口)。

 

一個TCP socket連接的網絡

 

2. TCP socket

在互聯網上,我們可以讓某臺計算機作爲服務器。服務器開放自己的端口,被動等待其他計算機連接。當其他計算機作爲客戶主動使用socket連接到服務器的時候,服務器就開始爲客戶提供服務。

 

在Python中,我們使用標準庫中的socket包來進行底層的socket編程。

首先是服務器端,我們使用bind()方法來賦予socket以固定的地址和端口,並使用listen()方法來被動的監聽該端口。當有客戶嘗試用connect()方法連接的時候,服務器使用accept()接受連接,從而建立一個連接的socket:

複製代碼
# Written by Vamei
# Server side
import socket

# Address HOST
= '' PORT = 8000 reply = 'Yes'

# Configure socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.bind((HOST, PORT))
# passively wait, 3: maximum number of connections in the queue s.listen(
3)
# accept and establish connection conn, addr
= s.accept()
# receive message request
= conn.recv(1024)
print 'request is: ',request
print 'Connected by', addr
# send message conn.sendall(reply)
# close connection conn.close()
複製代碼

socket.socket()創建一個socket對象,並說明socket使用的是IPv4(AF_INET,IP version 4)和TCP協議(SOCK_STREAM)。

 

然後用另一臺電腦作爲客戶,我們主動使用connect()方法來搜索服務器端的IP地址(在Linux中,你可以用$ifconfig來查詢自己的IP地址)和端口,以便客戶可以找到服務器,並建立連接:

複製代碼
# Written by Vamei
# Client side
import socket

# Address HOST
= '172.20.202.155' PORT = 8000 request = 'can you hear me?'
# configure socket s    
= socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.connect((HOST, PORT))
# send message
s.sendall(request)
# receive message reply  
= s.recv(1024) print 'reply is: ',reply
# close connection s.close()
複製代碼

在上面的例子中,我們對socket的兩端都可以調用recv()方法來接收信息,調用sendall()方法來發送信息。這樣,我們就可以在分處於兩臺計算機的兩個進程間進行通信了。當通信結束的時候,我們使用close()方法來關閉socket連接。

(如果沒有兩臺計算機做實驗,也可以將客戶端IP想要connect的IP改爲"127.0.0.1",這是個特殊的IP地址,用來連接當地主機。)

 

3. 基於TCP socket的HTTP服務器:

上面的例子中,我們已經可以使用TCP socket來爲兩臺遠程計算機建立連接。然而,socket傳輸自由度太高,從而帶來很多安全和兼容的問題。我們往往利用一些應用層的協議(比如HTTP協議)來規定socket使用規則,以及所傳輸信息的格式

 

HTTP協議利用請求-迴應(request-response)的方式來使用TCP socket。客戶端向服務器發一段文本作爲request,服務器端在接收到request之後,向客戶端發送一段文本作爲response。在完成了這樣一次request-response交易之後,TCP socket被廢棄。下次的request將建立新的socket。request和response本質上說是兩個文本,只是HTTP協議對這兩個文本都有一定的格式要求。

 

 

request-response cycle

 

現在,我們寫出一個HTTP服務器端:

複製代碼
複製代碼

# Written by Vamei

import socket

# Address
HOST = ''
PORT = 8000

# Prepare HTTP response
text_content = '''
HTTP/1.x 200 OK  
Content-Type: text/html

<head>
<title>WOW</title>
</head>
<html>
<p>Wow, Python Server</p>
<IMG src="test.jpg"/>
</html>
'''

# Read picture, put into HTTP format
f = open('test.jpg','rb')
pic_content = '''
HTTP/1.x 200 OK  
Content-Type: image/jpg

'''
pic_content = pic_content + f.read()
f.close()

# Configure socket
s    = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.bind((HOST, PORT))

# infinite loop, server forever
while True:
    # 3: maximum number of requests waiting
    s.listen(3)
    conn, addr = s.accept()
    request    = conn.recv(1024)
    method    = request.split(' ')[0]
    src            = request.split(' ')[1]

    # deal with GET method
    if method == 'GET':
        # ULR    
        if src == '/test.jpg':
            content = pic_content
        else: content = text_content

        print 'Connected by', addr
        print 'Request is:', request
        conn.sendall(content)
    # close connection
    conn.close()
複製代碼

 


4. HTTP服務器程序的解釋

如我們上面所看到的,服務器會根據request向客戶傳輸的兩條信息text_contentpic_content中的一條,作爲response文本。整個response分爲起始行(start line), 頭信息(head)和主體(body)三部分。起始行就是第一行:

HTTP/1.x 200 OK

它實際上又由空格分爲三個片段,HTTP/1.x表示所使用的HTTP版本,200表示狀態(status code),200是HTTP協議規定的,表示服務器正常接收並處理請求,OK是供人來閱讀的status code。

 

頭信息跟隨起始行,它和主體之間有一個空行。這裏的text_content或者pic_content都只有一行的頭信息,text_content用來表示主體信息的類型爲html文本:

Content-Type: text/html

而pic_content的頭信息(Content-Type: image/jpg)說明主體的類型爲jpg圖片(image/jpg)。

 

主體信息爲html或者jpg文件的內容。

(注意,對於jpg文件,我們使用'rb'模式打開,是爲了與windows兼容。因爲在windows下,jpg被認爲是二進制(binary)文件,在UNIX系統下,則不需要區分文本文件和二進制文件。)

 

我們並沒有寫客戶端程序,後面我們會用瀏覽器作爲客戶端。request由客戶端程序發給服務器。儘管request也可以像response那樣分爲三部分,request的格式與response的格式並不相同。request由客戶發送給服務器,比如下面是一個request:

GET /test.jpg HTTP/1.x
Accept: text/*

 

起始行可以分爲三部分,第一部分爲請求方法(request method),第二部分是URL,第三部分爲HTTP版本。request method可以有GET, PUT, POST, DELETE, HEAD。最常用的爲GET和POST。GET是請求服務器發送資源給客戶,POST是請求服務器接收客戶送來的數據。當我們打開一個網頁時,我們通常是使用GET方法;當我們填寫表格並提交時,我們通常使用POST方法。第二部分爲URL,它通常指向一個資源(服務器上的資源或者其它地方的資源)。像現在這樣,就是指向當前服務器的當前目錄的test.jpg。

按照HTTP協議的規定,服務器需要根據請求執行一定的操作。正如我們在服務器程序中看到的,我們的Python程序先檢查了request的方法,隨後根據URL的不同,來生成不同的response(text_content或者pic_content)。隨後,這個response被髮送回給客戶端。

 

4. 使用瀏覽器實驗

爲了配合上面的服務器程序,我已經在放置Python程序的文件夾裏,保存了一個test.jpg圖片文件。我們在終端運行上面的Python程序,作爲服務器端,再打開一個瀏覽器作爲客戶端。(如果有時間,你也完全可以用Python寫一個客戶端。原理與上面的TCP socket的客戶端程序相類似。)

在瀏覽器的地址欄輸入:

127.0.0.1:8000

 

(當然,你也可以用令一臺電腦,並輸入服務器的IP地址。) 我得到下面的結果:

 

OK,我已經有了一個用Python實現的,並從socket寫起的服務器了。

從終端,我們可以看到,瀏覽器實際上發出了兩個請求。第一個請求爲 (關鍵信息在起始行,這一個請求的主體爲空):

複製代碼
GET / HTTP/1.1
Host: 127.0.0.1:8000
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:14.0) Gecko/20100101 Firefox/14.0.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
複製代碼

我們的Python程序根據這個請求,發送給服務器text_content的內容。

 

瀏覽器接收到text_content之後,發現正文的html文本中有<IMG src="text.jpg" />,知道需要獲得text.jpg文件來補充爲圖片,立即發出了第二個請求:

複製代碼
GET /test.jpg HTTP/1.1
Host: 127.0.0.1:8000
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:14.0) Gecko/20100101 Firefox/14.0.1
Accept: image/png,image/*;q=0.8,*/*;q=0.5
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Referer: http://127.0.0.1:8000/
複製代碼

我們的Python程序分析過起始行之後,發現/test.jpg符合if條件,所以將pic_content發送給客戶。

最後,瀏覽器根據html語言的語法,將html文本和圖畫以適當的方式顯示出來。(html可參考http://www.w3schools.com/html/default.asp)

 

5.探索的方向

1) 在我們上面的服務器程序中,我們用while循環來讓服務器一直工作下去。實際上,我們還可以根據我之前介紹的多線程的知識,將while循環中的內容改爲多進程或者多線程工作。(參考Python多線程與同步Python多進程初步Python多進程探索)

2) 我們的服務器程序還不完善,我們還可以讓我們的Python程序調用Python的其他功能,以實現更復雜的功能。比如說製作一個時間服務器,讓服務器向客戶返回日期和時間。你還可以使用Python自帶的數據庫,來實現一個完整的LAMP服務器。

3) socket包是比較底層的包。Python標準庫中還有高層的包,比如SocketServer,SimpleHTTPServer,CGIHTTPServer,cgi。這些都包都是在幫助我們更容易的使用socket。如果你已經瞭解了socket,那麼這些包就很容易明白了。利用這些高層的包,你可以寫一個相當成熟的服務器。

4) 在經歷了所有的辛苦和麻煩之後,你可能發現,框架是那麼的方便,所以決定去使用框架。或者,你已經有了參與到框架開發的熱情。

 

更多內容

TCP/IP和port參考: TCP/IP illustrated http://book.douban.com/subject/1741925/

socket參考: UNIX Network Programming http://book.douban.com/subject/1756533/

           Python socket 官方文檔 http://docs.python.org/2/library/socket.html

HTTP參考: HTTP, the definitive guide http://book.douban.com/subject/1440226/


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章