Unix環境高級編程學習筆記之進程環境(1)

  學完UML後開始繼續學習Linux環境下的編程,APUE很厚,我直接挑我最感興趣的幾章開始學習,今天學習了進程環境有關的知識,遇到了很多以前從未想過的問題,在這做個筆記做個記錄。

  進程環境主要要討論的問題就是當程序執行時,main函數是如何被調用的,命令行參數是如何傳遞給新程序的,典型的存儲空間佈局是什麼樣式,如何分配另外的存儲空間,進程如何使用環境變量,進程的各種不同終止方式等等。

  進程終止:

  在UNIX系統中,Linux 系統一共有 8 種進程終止方式。

其中 5 種爲正常終止方式:

1)從 main() 函數返回;

2)調用 exit(3) 函數;

3)調用 _exit(2) 或 _Exit(2) 函數;

4)最後一個線程從其啓動例程返回;

5)從最後一個線程調用 pthread_exit(3) 函數。

剩下的 3 種爲異常終止方式:

6)調用 abort(3) 函數;

7)接收到一個信號;

8)最後一個線程對取消請求作出響應。

本章要重點討論的是退出函數,對於退出函數來說,_exit和_Exit都是立即進入內核態,而exit函數則要先執行一些清理操作,然後再返回內核。

以下爲函數原型:

#include <stdlib.h>
void exit(int status);
void _Exit(int status);
#include <unistd.h>
void _exit(int status);

我們知道,內核啓動執行一個C程序的時候,也就是調用我們的main函數之前,是首先調用一個特殊的啓動例程的。可執行程序文件將次啓動例程指定爲程序的起始地址,啓動例程還會從內核中取得命令行參數和環境變量的值,然後爲按上述方式調用的main函數做好安排。

所以對於上述的exit函數,其真實的調用應該是這樣的:

exit(main(argc,argv))

ps:上述的函數中使用不同的頭文件是因爲exit和_Exit是由ISO C說明的,而_exit是由POSIX.1說明的。

其中三個函數都帶一個整型參數是status,這個表示了終止狀態。如果說調用這些函數時不帶終止狀態,main執行了一個無返回值的return語句,或者main沒有聲明返回類型爲整型,則進程的終止狀態是未定義的。如果main函數的返回類型是整型,並且main執行到最後一句時返回(隱式返回),那麼進程的終止狀態是0。

現在對於exit函數,其可以在退出時做一系列清理現場的工作,那麼這個工作我們是否可以自定義呢?答案是肯定的。

UNIX系統提供了一個函數叫做atexit,用他,一個進程最多可以登記32個函數,這些函數在退出時候會由exit函數自動調用來輔助清理,這些函數我們稱之爲終止處理程序。

從這張圖可以看到,退出方式有很多,在main函數調用用戶函數的時候可以直接進行退出,進入內核態,用戶函數main函數和啓動例程也都可以調用_exit或者_Exit函數來直接進入內核態,exit函數則要進行一系列的終止處理。書上給出了一個實例:

最後的運行結果是:

main is done

first exit handler

first exit handler

second exit handler

由此可見,對於atexit函數來說,終止處理程序的執行順序和它們登記的時候的順序正好相反。

環境表

每個程序都有一張環境表,環境表主要用來保存系統中的一系列環境變量,環境表還有一個環境指針指向他,如圖所示:

C程序的存儲佈局和存儲空間的分配:


C程序一直由以下幾部分組成:

正文段。這是由CPU執行的機器指令部分。通常,正文段是可共享的,所以即使是頻繁的執行程序,在存儲器中也只有一個副本,另外,正文段常常是制度的,以防止程序由於意外而修改其指令。

初始化數據段。通常將此稱爲數據段,它包含了程序中需明確地賦初值的變量。例如,C程序中出現在任何函數之外的聲明:

int maxcount = 99;

非初始化數據段。通常將此段稱爲bss段,這一名稱來源於一個早期的彙編運算符,意思是“block started by symbol"(由符號開始的塊),在程序開始執行之前,內核將此段中的數據初始化爲0或空指針。出現在任何函數外的C聲明

long sum[1000];

棧。自動變量以及每次函數調用時所需保存的信息都存放在此段中。每次調用函數時,其返回地址以及調用者的環境變量(例如某些機器寄存器的值)都存放在棧中。然後,最近被調用的函數在棧上爲其自動和臨時變量分配存儲空間。通過以這種方式使用棧,可以遞歸調用C函數。遞歸函數每次調用自身時,就使用一個新的棧幀,因此一個函數調用實例中的變量集不會影響另一個函數調用實例中的變量。

堆。通常在堆中進行動態存儲分配。由於歷史上形成的慣例,堆位於非初始化數據段和棧之間。

特別要注意的是堆,堆是用於存放進程運行中被動態分配的內存段,它的大小並不固定,可動態擴張或縮減。當進程調用malloc等函數分配內存時,新分配的內存就被動態添加到堆上(堆被擴張);當利用free等函數釋放內存時,被釋放的內存從堆中被剔除(堆被縮減)。

下面來談動態分配,UNIX提供了3個用於存儲空間動態分配的函數:

(1) malloc   分配指定字節數的存儲區。此存儲區中的初始值不確定

(2) calloc   爲指定長度的對象,分配能容納其指定個數的存儲空間。該空間中的每一位(bit)都初始化爲0

(3) realloc  更改以前分配區的長度(增加或減少)。當增加長度時,可能需將以前分配區的內容移到另一個足夠大的區域,而新增區域內的初始值則不確定

環境變量:

在UNIX中程序也可以設置自己的環境變量,提供了三個函數:

int putenv(char *str);

int setenv(const char *name, const char *value, int rewrite);

int unsetenv(const char *name);

三個函數返回值:成功返回0,出錯返回非0

getenv()函數就是獲得某個環境變量的值;

putenv()取形式爲name = value的,並將其放入環境表中。如果name已經存在,則先刪除原來的定義字符串。

setenv()將name設置爲value。如果環境中name已經存在,則若rewrite非0,則首先刪除現有的定義;若rewrite爲0,則不刪除現有定義(什麼都不幹)。

unsetenv()則刪除name的定義,即使不存在也不出錯。

現在,環境表和環境字符串是存放在我們前面的存儲空間的頂部的,也就是棧的上面,如果我要刪除一個環境變量,那麼很簡單,只要在環境表中找到該指針,然後將所有後續指針都向環境表首部順次移動一個位置。如果我們要增加一個字符串或者修改呢?那就比較麻煩了。

環境表和環境字符串通常佔有的是進程地址空間的頂部,所以不能向上擴展,不然就影響到別的程序了,同時下面就是棧,所以也不能向低地址進行擴展,那麼我們就需要調用malloc函數爲新的表分配空間,這個空間是向堆去申請的,申請過後,把原來的表複製一份到新的內存空間,然後把你新插入的環境變量插入到這個表的表尾,最後在後面再放入一個空指針,再用環境指針指向這個表,就完成了整個過程。書上最後還說,此表中的大多數指針仍然指向棧頂上的各個name=value串,我的理解是,對於原來的環境變量,應該還是老位置,新的環境變量則插入到新申請的堆空間中。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章