Python併發編程(一):多進程(理論篇)

一、 什麼是進程

進程:正在進行的一個過程或者說一個任務。而負責執行任務則是cpu。

舉例(單核+多道,實現多個進程的併發執行):

老王在一個時間段內有很多任務要做:python開發的任務,寫書的任務,交女朋友的任務,王者榮耀上分的任務,

但同一時刻只能做一個任務(cpu同一時間只能幹一個活),如何才能玩出多個任務併發執行的效果?

老王開發一會兒,再去跟隔壁老張的女朋友聊聊天,再去打一會王者榮耀…這就保證了每個任務都在進行中.

二、進程與程序的區別

程序僅僅只是一堆靜態代碼而已,而進程指的是程序在數據集上的一次執行過程,它是動態的。

# 一個生動形象的例子:

想象一位有一手好廚藝的計算機科學家蕭炎正在爲他的女兒蕭瀟烘製生日蛋糕。

他有做生日蛋糕的食譜,

廚房裏有所需的原料:麪粉、雞蛋、韭菜,蒜泥等。

在這個比喻中:

做蛋糕的食譜就是程序(即用適當形式描述的算法)

計算機科學家就是處理器(cpu)

而做蛋糕的各種原料就是輸入數據。

進程就是廚師閱讀食譜、取來各種原料以及烘製蛋糕等一系列動作的總和。

現在假設計算機科學家蕭炎的兒子蕭霖哭着跑了進來,說:XXXXXXXXXXXXXX。

科學家egon想了想,處理兒子蕭霖蟄傷的任務比給女兒元昊做蛋糕的任務更重要,於是

計算機科學家就記錄下他照着食譜做到哪兒了(保存進程的當前狀態),然後拿出一本急救手冊,按照其中的指示處理蟄傷。這裏,我們看到處理機從一個進程(做蛋糕)切換到另一個高優先級的進程(實施醫療救治),每個進程擁有各自的程序(食譜和急救手冊)。當蜜蜂蟄傷處理完之後,這位計算機科學家又回來做蛋糕,從他 離開時的那一步繼續做下去。

三、併發與並行

無論是並行還是併發,在用戶看來都是’同時’運行的,不管是進程還是線程,都只是一個任務而已,真是幹活的是cpu,cpu來做這些任務,而一個cpu同一時刻只能執行一個任務

併發:是僞並行,在一段時間內,多個進程可以被執行,即看起來是同時運行。單個cpu+多道技術就可以實現併發,(並行也屬於併發)
並行:同時運行,在一個時間點能夠多個進程同時運行,具備多個cpu才能實現並行,但是採用了HT超線程技術(四核八線程又稱僞八核),1核兩線程,僞二核,採用了超線程技術可以實現一個cpu,兩個進程並行。
在這裏插入圖片描述

四、同步\異步、阻塞\非阻塞

1、同步

#所謂同步,就是在發出一個功能調用時,在沒有得到結果之前,該調用就不會返回。按照這個定義,其實絕大多數函數都是同步調用。但是一般而言,我們在說同步、異步的時候,特指那些需要其他部件協作或者需要一定時間完成的任務。
#舉例:
#1. multiprocessing.Pool下的apply #發起同步調用後,就在原地等着任務結束,根本不考慮任務是在計算還是在io阻塞,總之就是一股腦地等任務結束
#2. concurrent.futures.ProcessPoolExecutor().submit(func,).result()
#3. concurrent.futures.ThreadPoolExecutor().submit(func,).result()

2、異步

#異步的概念和同步相對。當一個異步功能調用發出後,調用者不能立刻得到結果。當該異步功能完成後,通過狀態、通知或回調來通知調用者。如果異步功能用狀態來通知,那麼調用者就需要每隔一定時間檢查一次,效率就很低(有些初學多線程編程的人,總喜歡用一個循環去檢查某個變量的值,這其實是一 種很嚴重的錯誤)。如果是使用通知的方式,效率則很高,因爲異步功能幾乎不需要做額外的操作。至於回調函數,其實和通知沒太多區別。
#舉例:
#1. multiprocessing.Pool().apply_async() #發起異步調用後,並不會等待任務結束才返回,相反,會立即獲取一個臨時結果(並不是最終的結果,可能是封裝好的一個對象)。
#2. concurrent.futures.ProcessPoolExecutor(3).submit(func,)
#3. concurrent.futures.ThreadPoolExecutor(3).submit(func,)

2、阻塞

#阻塞調用是指調用結果返回之前,當前線程會被掛起(如遇到io操作)。函數只有在得到結果之後纔會將阻塞的線程激活。有人也許會把阻塞調用和同步調用等同起來,實際上他是不同的。對於同步調用來說,很多時候當前線程還是激活的,只是從邏輯上當前函數沒有返回而已。
#舉例:
#1. 同步調用:apply一個累計1億次的任務,該調用會一直等待,直到任務返回結果爲止,但並未阻塞住(即便是被搶走cpu的執行權限,那也是處於就緒態);
#2. 阻塞調用:當socket工作在阻塞模式的時候,如果沒有數據的情況下調用recv函數,則當前線程就會被掛起,直到有數據爲止。

3、非阻塞

# 阻塞就是阻塞態,非阻塞就是就緒態或運行態,非阻塞和阻塞的概念相對應,指在不能立刻得到結果之前也會立刻返回,同時該函數不會阻塞當前線程。

小結:

#1. 同步與異步針對的是函數/任務的調用方式:同步就是當一個進程發起一個函數(任務)調用的時候,一直等到函數(任務)完成,而進程繼續處於激活狀態。而異步情況下是當一個進程發起一個函數(任務)調用的時候,不會等函數返回,而是繼續往下執行當,函數返回的時候通過狀態、通知、事件等方式通知進程任務完成。

#2. 阻塞與非阻塞針對的是進程或線程:阻塞是當請求不能滿足的時候就將進程掛起,而非阻塞則不會阻塞當前進程

異步不一定就是非阻塞,也可能是阻塞。比如開啓多個進程的p.start,它是異步的,但是進程的任務裏面如果有input這種IO操作,就是阻塞的!
同理同步不一定就是阻塞,也可能是非阻塞!

五、進程的創建(瞭解)

但凡是硬件,都需要有操作系統去管理,只要有操作系統,就有進程的概念,就需要有創建進程的方式,一些操作系統只爲一個應用程序設計,比如微波爐中的控制器,一旦啓動微波爐,所有的進程都已經存在。

而對於通用系統(跑很多應用程序),需要有系統運行過程中創建或撤銷進程的能力,主要分爲4中形式創建新的進程

  1. 系統初始化(查看進程linux中用ps命令,windows中用任務管理器,前臺進程負責與用戶交互,後臺運行的進程與用戶無關,運行在後臺並且只在需要時才喚醒的進程,稱爲守護進程,如電子郵件、web頁面、新聞、打印)

  2. 一個進程在運行過程中開啓了子進程(如nginx開啓多進程,os.fork,subprocess.Popen等)

  3. 用戶的交互式請求,而創建一個新進程(如用戶雙擊暴風影音)

  4. 一個批處理作業的初始化(只在大型機的批處理系統中應用)

無論哪一種,新進程的創建都是由一個已經存在的進程執行了一個用於創建進程的系統調用而創建的:

  1. 在UNIX中該系統調用是:fork,fork會創建一個與父進程一模一樣的副本,二者有相同的存儲映像、同樣的環境字符串和同樣的打開文件(在shell解釋器進程中,執行一個命令就會創建一個子進程)

  2. 在windows中該系統調用是:CreateProcess,CreateProcess既處理進程的創建,也負責把正確的程序裝入新進程。

關於創建的子進程,UNIX和windows

1.相同的是:進程創建後,父進程和子進程有各自不同的地址空間(多道技術要求物理層面實現進程之間內存的隔離),任何一個進程的在其地址空間中的修改都不會影響到另外一個進程。

2.不同的是:在UNIX中,子進程的初始地址空間是父進程的一個副本,提示:子進程和父進程是可以有隻讀的共享內存區的。但是對於windows系統來說,從一開始父進程與子進程的地址空間就是不同的。

六、進程的終止(瞭解)

  1. 正常退出(自願,如用戶點擊交互式頁面的叉號,或程序執行完畢調用發起系統調用正常退出,在linux中用exit,在windows中用ExitProcess)

  2. 出錯退出(自願,python a.py中a.py不存在)

  3. 嚴重錯誤(非自願,執行非法指令,如引用不存在的內存,1/0等,可以捕捉異常,try…except…)

  4. 被其他進程殺死(非自願,如kill -9)

七、進程的層次結構

無論UNIX還是windows,進程只有一個父進程,不同的是:

  1. 在UNIX中所有的進程,都是以init進程爲根,組成樹形結構。父子進程共同組成一個進程組,這樣,當從鍵盤發出一個信號時,該信號被送給當前與鍵盤相關的進程組中的所有成員。

  2. 在windows中,沒有進程層次的概念,所有的進程都是地位相同的,唯一類似於進程層次的暗示,是在創建進程時,父進程得到一個特別的令牌(稱爲句柄),該句柄可以用來控制子進程,但是父進程有權把該句柄傳給其他子進程,這樣就沒有層次了。

八、進程的狀態

tail -f access.log |grep ‘404’

執行程序tail,開啓一個子進程,執行程序grep,開啓另外一個子進程,兩個進程之間基於管道’|'通訊,將tail的結果作爲grep的輸入。

進程grep在等待輸入(即I/O)時的狀態稱爲阻塞,此時grep命令都無法運行

其實在兩種情況下會導致一個進程在邏輯上不能運行,

  1. 進程掛起是自身原因,遇到I/O阻塞,便要讓出CPU讓其他進程去執行,這樣保證CPU一直在工作

  2. 與進程無關,是操作系統層面,可能會因爲一個進程佔用時間過多,或者優先級等原因,而調用其他的進程去使用CPU。

因而一個進程由三種狀態
在這裏插入圖片描述

九、進程併發的實現(瞭解)

進程併發的實現在於,硬件中斷一個正在運行的進程,把此時進程運行的所有狀態保存下來,爲此,操作系統維護一張表格,即進程表(process table),每個進程佔用一個進程表項(這些表項也稱爲進程控制塊)
在這裏插入圖片描述該表存放了進程狀態的重要信息:程序計數器、堆棧指針、內存分配狀況、所有打開文件的狀態、帳號和調度信息,以及其他在進程由運行態轉爲就緒態或阻塞態時,必須保存的信息,從而保證該進程在再次啓動時,就像從未被中斷過一樣。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章