Linux系統內存知識

Linux 內存是後臺開發人員，需要深入瞭解的計算機資源。合理的使用內存，有助於提升機器的性能和穩定性。本文主要介紹Linux 內存組織結構和頁面佈局，內存碎片產生原因和優化算法，Linux 內核幾種內存管理的方法，內存使用場景以及內存使用的那些坑。

從內存的原理和結構，到內存的算法優化，再到使用場景，去探尋內存管理的機制和奧祕。
一走進Liunx 內存
內存又稱主存，是cpu能直接尋址的存儲空間由半導體器件製成
2)內存的特點是存取速率快

2、內存的作用

1)暫時存放 cpu 的運算數據
2)硬盤等外部存儲器交換的數據
3)保障 cpu 計算的穩定性和高性能

二、 Linux 內存地址空間

1、Linux 內存地址空間 Linux 內存管理全貌

2、內存地址——用戶態&內核態

用戶態：Ring3 運行於用戶態的代碼則要受到處理器的諸多
內核態：Ring0 在處理器的存儲保護中，核心態
用戶態切換到內核態的 3 種方式：系統調用、異常、外設中斷
區別：每個進程都有完全屬於自己的，獨立的，不被幹擾的內存空間；用戶態的程序就不能隨意操作內核地址空間，具有一定的安全保護作用；內核態線程共享內核
地址空間；
3、內存地址——MMU 地址轉換

MMU 是一種硬件電路，它包含兩個部件，一個是分段部件，一個是分頁部件
分段機制把一個邏輯地址轉換爲線性地址
分頁機制把一個線性地址轉換爲物理地址

4、內存地址——分段機制

段選擇符

爲了方便快速檢索段選擇符，處理器提供了 6 個分段寄存器來緩存段選擇符，它們是：cs,ss,ds,es,fs 和 gs
段的基地址(Base Address)：在線性地址空間中段的起始地址
段的界限(Limit)：在虛擬地址空間中，段內可以使用的最大偏移量
2) 分段實現

邏輯地址的段寄存器中的值提供段描述符，然後從段描述符中得到段基址和段界限，然後加上邏輯地址的偏移量，就得到了線性地址

5、內存地址——分頁機制（32 位）

分頁機制是在分段機制之後進行的，它進一步將線性地址轉換爲物理地址
10 位頁目錄，10 位頁表項， 12 位頁偏移地址
單頁的大小爲 4KB

6、用戶態地址空間

TEXT：代碼段可執行代碼、字符串字面值、只讀變量
DATA：數據段，映射程序中已經初始化的全局變量
BSS 段：存放程序中未初始化的全局變量
HEAP：運行時的堆，在程序運行中使用 malloc 申請的內存區域
MMAP：共享庫及匿名文件的映射區域
STACK：用戶進程棧
7、內核態地址空間

直接映射區：線性空間中從 3G 開始最大 896M 的區間，爲直接內存映射區
動態內存映射區：該區域由內核函數 vmalloc 來分配
永久內存映射區：該區域可訪問高端內存
固定映射區：該區域和 4G 的頂端只有 4k 的隔離帶，其每個地址項都服務於特定的用途，如：ACPI_BASE 等
8、進程內存空間

用戶進程通常情況只能訪問用戶空間的虛擬地址，不能訪問內核空間虛擬地址
內核空間是由內核負責映射，不會跟着進程變化；內核空間地址有自己對應的頁表，用戶進程各自有不同額頁表

三、 Linux 內存分配算法

內存管理算法：對討厭自己管理內存的人來說是天賜的禮物。

1、內存碎片

基本原理

產生原因：內存分配較小，並且分配的這些小的內存生存週期又較長，反覆申請後將產生內存碎片的出現
優點：提高分配速度，便於內存管理，防止內存泄露
缺點：大量的內存碎片會使系統緩慢，內存使用率低，浪費大
2) 如何避免內存碎片

少用動態內存分配的函數(儘量使用棧空間)
分配內存和釋放的內存儘量在同一個函數中
儘量一次性申請較大的內存，而不要反覆申請小內存
儘可能申請大塊的 2 的指數冪大小的內存空間
外部碎片避免——夥伴系統算法
內部碎片避免——slab 算法
自己進行內存管理工作，設計內存池
2、夥伴系統算法——組織結構

概念

爲內核提供了一種用於分配一組連續的頁而建立的一種高效的分配策略，並有效的解決了外碎片問題
分配的內存區是以頁框爲基本單位的
2) 外部碎片

外部碎片指的是還沒有被分配出去（不屬於任何進程），但由於太小了無法分配給申請內存空間的新進程的內存空閒區域3) 組織結構
把所有的空閒頁分組爲 11 個塊鏈表，每個塊鏈表分別包含大小爲 1，2，4，8，16，32，64，128，256，512 和 1024 個連續頁框的頁塊。最大可以申請 1024 個連續頁，對應 4MB 大小的連續內存。

3、夥伴系統算法——申請和回收

申請算法

申請 2^i 個頁塊存儲空間，如果 2^i 對應的塊鏈表有空閒頁塊，則分配給應用
如果沒有空閒頁塊，則查找 2^(i 1) 對應的塊鏈表是否有空閒頁塊，如果有，則分配 2^i 塊鏈表節點給應用，另外 2^i 塊鏈表節點插入到 2^i 對應的塊鏈表中
如果 2^(i 1) 塊鏈表中沒有空閒頁塊，則重複步驟 2，直到找到有空閒頁塊的塊鏈表
如果仍然沒有，則返回內存分配失敗
2) 回收算法

釋放 2^i 個頁塊存儲空間，查找 2^i 個頁塊對應的塊鏈表，是否有與其物理地址是連續的頁塊，如果沒有，則無需合併

如果有，則合併成 2^（i 1）的頁塊，以此類推，繼續查找下一級塊鏈接，直到不能合併爲止

3) 條件

兩個塊具有相同的大小
它們的物理地址是連續的
頁塊大小相同
4、如何分配 4M 以上內存？

爲何限制大塊內存分配

分配的內存越大, 失敗的可能性越大
大塊內存使用場景少
2) 內核中獲取 4M 以上大內存的方法

修改 MAX_ORDER, 重新編譯內核
內核啓動選型傳遞’mem='參數, 如’mem=80M，預留部分內存；然後通過
request_mem_region 和 ioremap_nocache 將預留的內存映射到模塊中。需要修改內核啓動參數, 無需重新編譯內核. 但這種方法不支持 x86 架構, 只支持 ARM, PowerPC 等非 x86 架構
在 start_kernel 中 mem_init 函數之前調用 alloc_boot_mem 函數預分配大塊內存, 需要重新編譯內核
vmalloc 函數，內核代碼使用它來分配在虛擬內存中連續但在物理內存中不一定連續的內存
5、夥伴系統——反碎片機制

不可移動頁

這些頁在內存中有固定的位置，不能夠移動，也不可回收
內核代碼段，數據段，內核 kmalloc() 出來的內存，內核線程佔用的內存等
2) 可回收頁

這些頁不能移動，但可以刪除。內核在回收頁佔據了太多的內存時或者內存短缺時進行頁面回收3) 可移動頁
這些頁可以任意移動，用戶空間應用程序使用的頁都屬於該類別。它們是通過頁表映射的
當它們移動到新的位置，頁表項也會相應的更新
6、slab 算法——基本原理

基本概念

Linux 所使用的 slab 分配器的基礎是 Jeff Bonwick 爲 SunOS 操作系統首次引入的一種算法
它的基本思想是將內核中經常使用的對象放到高速緩存中，並且由系統保持爲初始的可利用狀態。比如進程描述符，內核中會頻繁對此數據進行申請和釋放
2) 內部碎片

已經被分配出去的的內存空間大於請求所需的內存空間3) 基本目標
減少夥伴算法在分配小塊連續內存時所產生的內部碎片
將頻繁使用的對象緩存起來，減少分配、初始化和釋放對象的時間開銷
通過着色技術調整對象以更好的使用硬件高速緩存
7、slab 分配器的結構

由於對象是從 slab 中分配和釋放的，因此單個 slab 可以在 slab 列表之間進行移動
slabs_empty 列表中的 slab 是進行回收（reaping）的主要備選對象
slab 還支持通用對象的初始化，從而避免了爲同一目而對一個對象重複進行初始化

8、slab 高速緩存

普通高速緩存

slab 分配器所提供的小塊連續內存的分配是通過通用高速緩存實現的
通用高速緩存所提供的對象具有幾何分佈的大小，範圍爲 32 到 131072 字節。
內核中提供了 kmalloc() 和 kfree() 兩個接口分別進行內存的申請和釋放
2) 專用高速緩存

內核爲專用高速緩存的申請和釋放提供了一套完整的接口，根據所傳入的參數爲具體的對象分配 slab 緩存
kmem_cache_create() 用於對一個指定的對象創建高速緩存。它從 cache_cache 普通高速緩存中爲新的專有緩存分配一個高速緩存描述符，並把這個描述符插入到高速緩存描述符形成的 cache_chain 鏈表中
kmem_cache_alloc() 在其參數所指定的高速緩存中分配一個 slab。相反， kmem_cache_free() 在其參數所指定的高速緩存中釋放一個 slab
9、內核態內存池

基本原理

先申請分配一定數量的、大小相等(一般情況下) 的內存塊留作備用
當有新的內存需求時，就從內存池中分出一部分內存塊，若內存塊不夠再繼續申請新的內存
這樣做的一個顯著優點是儘量避免了內存碎片，使得內存分配效率得到提升
2) 內核 API

mempool_create 創建內存池對象
mempool_alloc 分配函數獲得該對象
mempool_free 釋放一個對象
mempool_destroy 銷燬內存池

10、用戶態內存池

C++ 實例

11、DMA 內存
什麼是 DMA

直接內存訪問是一種硬件機制，它允許外圍設備和主內存之間直接傳輸它們的 I/O 數據，而不需要系統處理器的參與2) DMA 控制器的功能
能向 CPU 發出系統保持（HOLD）信號，提出總線接管請求
當 CPU 發出允許接管信號後，負責對總線的控制，進入 DMA 方式
能對存儲器尋址及能修改地址指針，實現對內存的讀寫操作
能決定本次 DMA 傳送的字節數，判斷 DMA 傳送是否結束
發出 DMA 結束信號，使 CPU 恢復正常工作狀態
2) DMA 信號

DREQ：DMA 請求信號。是外設向 DMA 控制器提出要求，DMA 操作的申請信號
DACK：DMA 響應信號。是 DMA 控制器向提出 DMA 請求的外設表示已收到請求和正進行處理的信號
HRQ：DMA 控制器向 CPU 發出的信號，要求接管總線的請求信號。
HLDA：CPU 向 DMA 控制器發出的信號，允許接管總線的應答信號：

四、內存使用場景

out of memory 的時代過去了嗎？no，內存再充足也不可任性使用。

1、內存的使用場景

page 管理
slab（kmalloc、內存池）
用戶態內存使用（malloc、relloc 文件映射、共享內存）
程序的內存 map（棧、堆、code、data）
內核和用戶態的數據傳遞（copy_from_user、copy_to_user）
內存映射（硬件寄存器、保留內存）
DMA 內存
2、用戶態內存分配函數

alloca 是向棧申請內存,因此無需釋放
malloc 所分配的內存空間未被初始化，使用 malloc() 函數的程序開始時(內存空間還沒有被重新分配) 能正常運行，但經過一段時間後(內存空間已被重新分配) 可能會出現問題
calloc 會將所分配的內存空間中的每一位都初始化爲零
realloc 擴展現有內存空間大小
a)如果當前連續內存塊足夠 realloc 的話，只是將 p 所指向的空間擴大，並返回 p 的指針地址。這個時候 q 和 p 指向的地址是一樣的

b)如果當前連續內存塊不夠長度，再找一個足夠長的地方，分配一塊新的內存，q，並將 p 指向的內容 copy 到 q，返回 q。並將 p 所指向的內存空間刪除

3、內核態內存分配函數

函數分配原理最大內存其他_get_free_pages直接對頁框進行操作4MB適用於分配較大量的連續物理內存kmem_cache_alloc基於 slab 機制實現128KB適合需要頻繁申請釋放相同大小內存塊時使用kmalloc基於 kmem_cache_alloc 實現128KB最常見的分配方式，需要小於頁框大小的內存時可以使用vmalloc建立非連續物理內存到虛擬地址的映射物理不連續，適合需要大內存，但是對地址連續性沒有要求的場合dma_alloc_coherent基於_alloc_pages 實現4MB適用於 DMA 操作ioremap實現已知物理地址到虛擬地址的映射適用於物理地址已知的場合，如設備驅動alloc_bootmem在啓動 kernel 時，預留一段內存，內核看不見小於物理內存大小，內存管理要求較高

4、malloc 申請內存

調用 malloc 函數時，它沿 free_chuck_list 連接表尋找一個大到足以滿足用戶請求所需要的內存塊

free_chuck_list 連接表的主要工作是維護一個空閒的堆空間緩衝區鏈表
如果空間緩衝區鏈表沒有找到對應的節點，需要通過系統調用 sys_brk 延伸進程的棧空間

5、缺頁異常

通過 get_free_pages 申請一個或多個物理頁面
換算 addr 在進程 pdg 映射中所在的 pte 地址
將 addr 對應的 pte 設置爲物理頁面的首地址
系統調用：Brk—申請內存小於等於 128kb，do_map—申請內存大於 128kb

6、用戶進程訪問內存分析

用戶態進程獨佔虛擬地址空間，兩個進程的虛擬地址可相同
在訪問用戶態虛擬地址空間時，如果沒有映射物理地址，通過系統調用發出缺頁異常
缺頁異常陷入內核，分配物理地址空間，與用戶態虛擬地址建立映射

7、共享內存

原理

它允許多個不相關的進程去訪問同一部分邏輯內存
兩個運行中的進程之間傳輸數據，共享內存將是一種效率極高的解決方案
兩個運行中的進程共享數據，是進程間通信的高效方法，可有效減少數據拷貝的次數

2) Shm 接口

shmget 創建共享內存
shmat 啓動對該共享內存的訪問，並把共享內存連接到當前進程的地址空間
shmdt 將共享內存從當前進程中分離
五、內存使用那些坑

1、C 內存泄露

在類的構造函數和析構函數中沒有匹配地調用 new 和 delete 函數

沒有正確地清除嵌套的對象指針
沒有將基類的析構函數定義爲虛函數
當基類的指針指向子類對象時，如果基類的析構函數不是 virtual，那麼子類的析構函數將不會被調用，子類的資源沒有得到正確釋放，因此造成內存泄露
缺少拷貝構造函數，按值傳遞會調用（拷貝）構造函數，引用傳遞不會調用
指向對象的指針數組不等同於對象數組，數組中存放的是指向對象的指針，不僅要釋放每個對象的空間，還要釋放每個指針的空間
缺少重載賦值運算符，也是逐個成員拷貝的方式複製對象，如果這個類的大小是可變的，那麼結果就是造成內存泄露
2、C 野指針

指針變量沒有初始化
指針被 free 或 delete 後，沒有設置爲 NULL
指針操作超越了變量的作用範圍，比如返回指向棧內存的指針就是野指針
訪問空指針（需要做空判斷）
sizeof 無法獲取數組的大小
試圖修改常量，如：char p=‘1234’;p=‘1’;
3、C 資源訪問衝突

多線程共享變量沒有用 valotile 修飾
多線程訪問全局變量未加鎖
全局變量僅對單進程有效
多進程寫共享內存數據，未做同步處理
mmap 內存映射，多進程不安全
4、STL 迭代器失效

被刪除的迭代器失效
添加元素（insert/push_back 等）、刪除元素導致順序容器迭代器失效

正確示例：迭代器 erase 時，需保存下一個迭代器

5、C++ 11 智能指針

auto_ptr 替換爲 unique_ptr

使用 make_shared 初始化一個 shared_ptr

weak_ptr 智能指針助手（1）原理分析：

（2）數據結構：

（3）使用方法：a. lock() 獲取所管理的對象的強引用指針 b. expired() 檢測所管理的對象是否已經釋放 c. get() 訪問智能指針對象

6、C++ 11 更小更快更安全
std::atomic 原子數據類型多線程安全
std::array 定長數組開銷比 array 小和 std::vector 不同的是 array 的長度是固定的，不能動態拓展
std::vector vector 瘦身 shrink_to_fit()：將 capacity 減少爲於 size() 相同的大小
td::forward_list
forward_list 是單鏈表（std::list 是雙鏈表），只需要順序遍歷的場合，forward_list 能更加節省內存，插入和刪除的性能高於 list

std::unordered_map、std::unordered_set用 hash 實現的無序的容器，插入、刪除和查找的時間複雜度都是 O(1)，在不關注容器內元素順序的場合，使用 unordered 的容器能獲得更高的性能六、如何查看內存
系統中內存使用情況：/proc/meminfo

進程的內存使用情況：/proc/28040/status
查詢內存總使用率：free

查詢進程 cpu 和內存使用佔比：top

虛擬內存統計：vmstat

進程消耗內存佔比和排序：ps aux –sort -rss

釋放系統內存緩存：
/proc/sys/vm/drop_caches
To free pagecache, use echo 1 > /proc/sys/vm/drop_caches