linux內核PID管理

PID即進程描述符在linux kernel中的分配和管理比較複雜。本文分析了其相關數據結構以及函數。（代碼基於v3.0.3)

和PID相關的數據結構有

struct pid
{
atomic_t count;
unsigned int level;
struct hlist_head tasks[PIDTYPE_MAX];
struct rcu_head rcu;
struct upid numbers[1];
};

其中 count是指向該數據結構的引用次數。

level是該pid在pid_namespace中處於第幾層。當level=0時表示是global namespace，即最高層。pid_namespace這個數據結構將在後面進行解釋。

tasks[PIDTYPE_MAX]數組中每個元素都代表了不同的含義。PIDTYPE_MAX表示pid所表示的類型的最大數。該值定義在enum pid_type中

enum pid_type
{
PIDTYPE_PID,
PIDTYPE_PGID,
PIDTYPE_SID,
PIDTYPE_MAX
};

PIDTYPE_PID代表進程描述符(PID) 。 PIDTYPE_PGID代表一組進程描述符。一組進程(process)可以組成一個羣組，並且有一個組描述符。這樣的好處是如果有一個信號是針對這個組描述符，該羣組內的所有進程都可以接受到。 PIDTYPE_SID是對組描述符再做一個羣組，形成一個session。這是更高一個層次的抽象。

tasks[i]指向的是一個哈希表。譬如說tasks[PIDTYPE_PID]指向的是PID的哈希表。

rcu域我也沒有搞明白到底是做什麼的：（

numbers[1]域指向的是upid結構體。 numbers數組的本意是想表示不同的pid_namespace。一個PID可以屬於不同的namespace， numbers[0]表示global namespace，numbers[i]表示第i層namespace，i越大所在層級越低。目前該數組只有一個元素，即global namespace。所以namepace的概念雖然引入了pid，但是並未真正使用，在未來的版本可能會用到。

接下來我們再看看upid這個數據結構

struct upid {
int nr;
struct pid_namespace  × ns;
struct hlist_node pid_chain;
};

pid結構體中的numbers域指向了upid結構體。該結構體中

nr是pid的值，即 task_struct中 pid_t pid域的值。

ns指向該pid所處的namespace。

linux內核將所有進程的upid都存放在一個哈希表中（pid_hash），以方便查找和統一管理。因此，pid結構體中的numbers[0]指向的upid instance存放在pid_hash裏。通過pid_chain即哈希表的節點就能夠找到該upid所在pid_hash中的位置。

接下來再看看pid_namespace結構體

struct pid_namespace {
struct kref kref;
struct pidmap pidmap[PIDMAP_ENTRIES];
int last_pid;
struct task_struct *child_reaper;
struct kmem_cache *pid_cachep;
unsigned int level;
struct pid_namespace *parent;
};

kref表示指向pid_namespace的個數。

pidmap結構體表示分配pid的位圖。當需要分配一個新的pid時只需查找位圖，找到bit爲0的位置並置1，然後更新統計數據域（nr_free)。

struct pidmap {
atomic_t nr_free;
void *page;
};

nr_free表示還能分配的pid的數量。

page指向的是存放pid的物理頁。

所以pidmap[PIDMAP_ENTRIES]域表示該pid_namespace下pid已分配情況。

last_pid用於pidmap的分配。指向最後一個分配的pid的位置。(不是特別確定）

child_reaper指向的是一個進程。該進程的作用是當子進程結束時爲其收屍（回收空間）。由於目前只支持global namespace，這裏child_reaper就指向init_task。

pid_cachep域指向分配pid的slab的地址。

level表示該namespace處於哪一層，現在這裏顯然是0。

parent指向該namespace的父親namespace。現在一定是NULL。

介紹完pid_namespace相關的數據結構，我們來看看設計它們的本意是什麼。 Linux中增加namespace這個概念的目的是爲了虛擬化和方便管理。比如在不同的namespace中可以有pid相同的進程。 pid_namespace的結構是層次化的。而且在child namespace中的進程一定會有parent namespace的映射。這句話可能不太好理解。可以結合下面這張圖

以上圖爲例子，此時pid_hash全局哈希表中此時會存放15個(9+3+3)upid的instance。

前面介紹了這麼多關於pid， upid， pid_namespace的概念，接下來我們再來看看它們和task_struct之間的關係

右下角的橢圓形虛線框是全局pid_hash，所有已分配的upid都會保存在該hash表中。

左下角的橢圓形虛線框表示的是pid_namespace的關係。當然目前只有一層。

Linux內核通過task_struct來管理進程。在task_struct中，和pid相關的域有

struct task_struct
{
...
pid_t pid;
pid_t tgid;
struct task_struct *group_leader;
struct pid_link pids[PIDTYPE_MAX];
struct nsproxy *nsproxy;
...
};

pid指該進程的進程描述符。後面會介紹在fork函數中如何對其進行賦值的。

tgid指該進程的線程描述符。在linux內核中對線程並沒有做特殊的處理，還是由task_struct來管理。所以從內核的角度看，用戶態的線程本質上還是一個進程。對於同一個進程（用戶態角度）中不同的線程其tgid是相同的，但是pid各不相同。主線程即group_leader（主線程會創建其他所有的子線程）。如果是單線程進程（用戶態角度），它的pid等於tgid。

對於用戶態程序來說，調用getpid（）函數其實返回的是tgid。想想是爲什麼？：）

group_leader除了在多線程的模式下指向主線程，還有一個用處，當一些進程組成一個羣組時（PIDTYPE_PGID)，該域指向該羣組的leader。

nsproxy指針指向namespace相關的域。

struct nsproxy {
atomic_t count;
struct uts_namespace *uts_ns;
struct ipc_namespace *ipc_ns;
struct mnt_namespace *mnt_ns;
struct pid_namespace *pid_ns;
struct net           *net_ns;
};

通過nsproxy域可以知道該task_struct屬於哪個pid_namespace，當然現在一定是global namespace。（已經講了很多次了：））

其他一些域也是namespace相關，這裏就不展開解釋了。

pids[PIDTYPE_MAX]指向了和該task_struct相關的pid結構體。

pid_link的定義如下

struct pid_link
{
struct hlist_node node;
struct pid *pid;
};

在linux內核中如果想獲得該task_struct所對應的pid可以調用task_pid（）函數，這個函數的實現非常簡單

static inline struct pid *task_pid(struct task_struct *task)
{
 return task->pids[PIDTYPE_PID].pid;
}

自此我已將pid相關的數據結構介紹完了，下面我們再看看和pid相關的使用。

（1）fork函數中如何分配一個新的pid？

fork（）， vfork（）還有clone（）函數最終都是通過調用do_fork()來進行工作。分配新的pid是在copy_process（）函數實現的。 do_fork()函數會調用copy_process（），它們之間的關係我會在以後的文章中進行介紹。

static struct task_struct *copy_process(unsigned long clone_flags,
                                        unsigned long stack_start,
                                        struct pt_regs *regs,
                                        unsigned long stack_size,
                                        int __user *child_tidptr,
                                        struct pid *pid,
                                        int trace)
{
...
if (pid != &init_struct_pid) {
    retval = -ENOMEM;
    pid = alloc_pid(p->nsproxy->pid_ns);
    if (!pid)
        goto bad_fork_cleanup_io;
}

p->pid = pid_nr(pid);
p->tgid = p->pid;
if (clone_flags & CLONE_THREAD)
    p->tgid = current->tgid;

...
}

我只將和pid分配的代碼列出來了。

alloc_pid函數將分配一個新的pid struct。簡單的說該函數的功能是在pidmap上找到一個未用的pid bit，如若找不着，着說明已經沒有可用的pid了，該namespace所在pid配給全部用完。然後將其保存到pid_hash的哈希表裏，然後再將pid結構體返回。

pid_nr函數的實現也很簡單

static inline pid_t pid_nr(struct pid *pid)
 {
         pid_t nr = 0;
         if (pid)
                 nr = pid->numbers[0].nr;
         return nr;
 }

返回該pid所在global namespace的值。

後面幾行代碼用於區分進程和線程中tgid的值。

和pid相關的數據結構，函數定義可以在 include/linux/pid.h include/linux/pid_namespace.h 以及 kernel/pid.c kernel/pid_namespace.c中找到。

注：

（1）本文中如果發現任何錯誤請幫我指出。非常感謝！

（2）歡迎和大家進行交流。

（3）本文系原創，如需轉載請標明出處。

linux內核PID管理

大文本文件閱讀器設計

聊聊Windows程序中的"\r"和"\n"

利用mmap /dev/mem 讀寫Linux內存

關注分離

再談關注分離, 基於版本控制的設計

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結