Linux&&top命令詳解

查看多核CPU命令

top功能鍵使用實例

功能鍵介紹

命令行執行“top”命令後，在“top”頁面使用以下功能鍵：

“s”鍵 – 改變畫面刷新頻率（默認3.0）
“P”鍵 – 按 CPU 佔用率從大到小順序排列進程列表
“M”鍵 – 按內存佔用率從大到小順序排列進程列表
“h”鍵 – 在top頁面打開功能鍵使用方法介紹
“c”鍵 - 顯示整個命令行而不只是顯示命令名。
“N”鍵 – 按PID 號從大到小順序排列表示進程列表

“<ENTER>” 或者 “<SPACE>”  -   手動刷新顯示

“K”鍵 - 終止一個進程。系統將提示用戶輸入需要終止的進程PID，以及需要發送給該進程什麼樣的信號。一般的終止進程可以使用15信號；如果不能正常結束那就使用信號9強制結束該進程。默認值是信號15。在安全模式中此命令被屏蔽。
“r”鍵 - 重新安排一個進程的優先級別。系統提示用戶輸入需要改變的進程PID以及需要設置的進程優先級值。輸入一個正值將使優先級降低，反之則可以使該進程擁有更高的優先權。默認值是10。
“p”鍵 - 通過指定監控進程ID來僅僅監控某個進程的狀態。
“s”鍵 - 使top命令在安全模式中運行。這將去除交互命令所帶來的潛在危險。
“n”鍵 – 設置top頁面可顯示的進程的行數
"l"鍵 – 關閉或開啓第一部分第一行 top 信息的表示
"t "鍵 – 關閉或開啓第一部分第二行 Tasks 和第三行 Cpus 信息的表示
"m"鍵 – 關閉或開啓第一部分第四行 Mem 和第五行 Swap 信息的表示
"S"鍵：指定累計模式。
"i"鍵：使top不顯示任何閒置或者僵死進程。這是一個開關式命令。
"f或者F"鍵：從當前顯示中添加或者刪除項目。
"o或者O"鍵：改變顯示項目的順序
"T"鍵:根據時間/累計時間進行排序。
"W"鍵:將當前設置寫入~/.toprc文件中

top 默認排序是%CPU，若想切換：
shift+> 或者shift+< 向右或者向左切換排序基準。

各行含義詳解

第一行：系統運行時間和平均復負載

21:45:35 - 當前系統時間
670days,10:01 - 當前系統已運行的時間（在這期間沒有重啓過）
2 users - 當前登錄用戶的數量（當前有2個用戶登錄系統）
Load average:5.05,5.13,5.13 - 系統的平均負載：最近5分鐘內，最近10分鐘內，最近15分鐘內的平均負載。

命令行直接執行“uptime”命令可單獨顯示該行
load average數據是每隔5秒鐘檢查一次活躍的進程數，然後按特定算法計算出的數值。如果這個數除以邏輯CPU的數量，結果高於5的時候就表明系統在超負荷運轉了。
根據筆者以往的經驗來看單核負載在3-5之間比較合適，經常在1以下，說明cpu利用率不高，在5以上，cpu會處於較高負載狀態，會容易宕機。有一次項目上線，晚上加班觀察服務器狀況，這個值長時間保持在72左右，因爲服務器有八核，所以每核的值爲9，後來服務器就掛了。

“所以你說的理想負荷爲 1.00 ？”
　　嗯，這種情況其實並不完全正確。負荷 1.00 說明系統已經沒有剩餘的資源了。在實際情況中，有經驗的系統管理員都會將這條線劃在 0.70：
　　“需要進行調查法則”：如果長期你的系統負載在 0.70 上下，那麼你需要在事情變得更糟糕之前，花些時間瞭解其原因。
　　“現在就要修復法則”：1.00 。如果你的服務器系統負載長期徘徊於 1.00，那麼就應該馬上解決這個問題。否則，你將半夜接到你上司的電話，這可不是件令人愉快的事情。
　　“凌晨三點半鍛鍊身體法則”：5.00。如果你的服務器負載超過了 5.00 這個數字，那麼你將失去你的睡眠，還得在會議中說明這情況發生的原因，總之千萬不要讓它發生。

第二行：任務（進程）

第二行顯示的是任務或者進程的總結，系統現在共有113個進程，其中處於運行（running）狀態的進程有1個，112個進程在休眠（sleeping）狀態，stopped（停止）狀態的進程有0個，zombie(殭屍)狀態的進程有0個。
查找running狀態進程？
ps -aux | grep R
查找zombie狀態進程?出現原因？
ps -aux | grep Z

第三行：cpu運行情況

1.0%us：(user)運行用戶態進程佔用CPU時間百分比，不包含renice值爲負的任務佔用的CPU的時間。（運行未調整優先級的用戶進程的CPU時間）
0.5%sy：(system)運行內核進程佔用CPU時間百分比
0.0%ni：renice值爲負的任務的用戶態進程的CPU時間百分比。nice是優先級的意思（運行已調整優先級的用戶進程的CPU時間）
98.5%id：空閒CPU時間百分比
0.0%wa：Percentage of time that the CPU or CPUs were idle during which the system had an outstanding disk I/O request.
用於等待I/O的CPU時間百分比
0.0%hi：CPU處理硬件中斷（Hardware IRQ）時間百分比
0.0%si：CPU處理軟件中斷（Software Interrupts）時間百分比
0.0%st：這個虛擬機被hypervisor偷去的CPU時間（譯註：如果當前處於一個hypervisor下的vm，實際上hypervisor也是要消耗一部分CPU處理時間的）

第四行：memory使用情況

8133084k total：物理內存總量
7033324k used：使用的物理內存量
1099760k free：空閒的物理內存量
1109104k buffers：用作內核緩存的物理內存量

第五行：swap使用情況

2097148k total：交換區總量
122840k used：使用的交換區量
1974308k free：空閒的交換區量
5006872k cached：緩衝交換區總量

第四行中使用中的內存總量（used）指的是現在系統內核控制的內存數，空閒內存總量（free）是內核還未納入其管控範圍的數量。納入內核管理的內存不見得都在使用中，還包括過去使用過的現在可以被重複利用的內存，內核並不把這些可被重新使用的內存交還到free中去，因此在linux上free內存會越來越少，但不用爲此擔心。
如果出於習慣去計算可用內存數，這裏有個近似的計算公式：第四行的free + 第四行的buffers + 第五行的cached，按這個公式此臺服務器的可用內存：
1099760+1109104+5006872 =7210M。
對於內存監控，在top裏我們要時刻監控第五行swap交換分區的used，如果這個數值在不斷的變化，說明內核在不斷進行內存和swap的數據交換，這是真正的內存不夠用了。

參考資料：
https://blog.csdn.net/baobingji/article/details/84111380
https://blog.csdn.net/ahjxhy2010/article/details/51177618/

第六行：各進程（任務）的狀態監控

PID:進程ID，進程的唯一標識符
USER:進程所有者的實際用戶名
PR:進程的調度優先級。這個字段的一些值是’rt’。這意味這這些進程運行在實時態。越小越優先被執行
NI:進程的nice值（優先級）。越小的值意味着越高的優先級。負值表示高優先級，正值表示低優先級
VIRT:(virtual memory usage)虛擬內存

進程“需要的”虛擬內存大小，包括進程使用的庫、代碼、數據等
假如進程申請100m的內存，但實際只使用了10m，那麼它會增長100m，而不是實際的使用量.單位kb。VIRT=SWAP+RES

RES:(resident memory usage)常駐內存

進程當前使用的內存大小，但不包括swap out
包含其他進程的共享
如果申請100m的內存，實際使用10m，它只增長10m，與VIRT相反
關於庫佔用內存的情況，它只統計加載的庫文件所佔內存大小,單位kb。
RES=CODE+DATA

SHR:(shared memory)共享內存

除了自身進程的共享內存，也包括其他進程的共享內存
雖然進程只使用了幾個共享庫的函數，但它包含了整個共享庫的大小
計算某個進程所佔的物理內存大小公式：RES – SHR
swap out後，它將會降下來

S：進程狀態。（D=不可中斷的睡眠狀態，R=運行態，S=睡眠態，T=被跟蹤/已停止，Z=殭屍進程）
%CPU：上次更新到現在的CPU時間佔用百分比
%MEM：進程使用的物理內存百分比
TIME+：任務啓動後到現在所使用的全部CPU時間，精確到百分之一秒。單位1/100秒
COMMAND：運行進程所使用的命令。進程名稱（命令名/命令行）
SWAP: 進程使用的虛擬內存中，被換出的大小，單位kb。
CODE: 可執行代碼佔用的物理內存大小，單位kb
DATA: 可執行代碼以外的部分(數據段+棧)佔用的物理內存大小，單位kb

1、數據佔用的內存。如果top沒有顯示，按f鍵可以顯示出來。
2、真正的該程序要求的數據空間，是真正在運行中要使用的。

TTY：啓動進程的終端名。不是從終端啓動的進程則顯示爲 ?

拓展：

PPID 父進程id
RUSER Real user name
UID 進程所有者的用戶id
USER 進程所有者的用戶名
GROUP 進程所有者的組名
P 最後使用的CPU，僅在多CPU環境下有意義
TIME 進程使用的CPU時間總計，單位秒
nFLT 頁面錯誤次數
nDRT 最後一次寫入到現在，被修改過的頁面數。
WCHAN 若該進程在睡眠，則顯示睡眠中的系統函數名
Flags 任務標誌，參考 sched.h

通過 f 鍵可以選擇顯示的內容。按 f 鍵之後會顯示列的列表，按 a-z 即可顯示或隱藏對應的列，最後按回車鍵確定。
按 o 鍵可以改變列的顯示順序。按小寫的 a-z 可以將相應的列向右移動，而大寫的 A-Z 可以將相應的列向左移動。最後按回車鍵確定。
按大寫的 F 或 O 鍵，然後按 a-z 可以將進程按照相應的列進行排序。而大寫的 R 鍵可以將當前的排序倒轉。

查看多核CPU命令

mpstat -P ALL 和 sar -P ALL

sar -P ALL > aaa.txt 重定向輸出內容到文件 aaa.txt

top功能鍵使用實例

在top基本視圖中，按鍵盤數字“1”，可監控每個邏輯CPU的狀況：

觀察上圖，服務器有16個邏輯CPU，實際上是4個物理CPU。
進程字段排序:
默認進入top時，各進程是按照CPU的佔用量來排序的，在【top視圖 01】中進程ID爲14210的Java進程排在第一（cpu佔用100%），進程ID爲14183的java進程排在第二（cpu佔用12%）。可通過鍵盤指令來改變排序字段，比如想監控哪個進程佔用MEM最多，我一般的使用方法如下：
敲擊鍵盤“b”（打開/關閉加亮效果），top的視圖變化如下：

我們發現進程id爲10704的“top”進程被加亮了，top進程就是視圖第二行顯示的唯一的運行態（runing）的那個進程，可以通過敲擊“y”鍵關閉或打開運行態進程的加亮效果。
敲擊鍵盤“x”（打開/關閉排序列的加亮效果），top的視圖變化如下:

可以看到，top默認的排序列是“%CPU”。
通過”shift + >”或”shift + <”可以向右或左改變排序列，下圖是按一次”shift + >”的效果圖：

視圖現在已經按照%MEM來排序了。
敲擊“f”鍵，top進入另一個視圖，在這裏可以編排基本視圖中的顯示字段：

這裏列出了所有可在top基本視圖中顯示的進程字段，有星號並且標註爲大寫字母的字段是可顯示的，沒有”*”並且是小寫字母的字段是不顯示的。如果要在基本視圖中顯示“CODE”和“DATA”兩個字段，可以通過敲擊“r”和“s”鍵：
“回車”返回基本視圖，可以看到多了“CODE”和“DATA”兩個字段：

top命令的補充：
top命令是Linux上進行系統監控的首選命令，但有時候卻達不到我們的要求，比如當前這臺服務器，top監控有很大的侷限性。這臺服務器運行着websphere集羣，有兩個節點服務，就是【top視圖 01】中的老大、老二兩個java進程，top命令的監控最小單位是進程，所以看不到我關心的java線程數和客戶連接數，而這兩個指標是java的web服務非常重要的指標，通常我用ps和netstate兩個命令來補充top的不足。

監控java線程數：

ps -eLf | grep java | wc -l

監控網絡客戶連接數：

netstat -n | grep tcp | grep 偵聽端口 | wc -l

上面兩個命令，可改動grep的參數，來達到更細緻的監控要求。
在Linux系統“一切都是文件”的思想貫徹指導下，所有進程的運行狀態都可以用文件來獲取。系統根目錄/proc中，每一個數字子目錄的名字都是運行中的進程的PID，進入任一個進程目錄，可通過其中文件或目錄來觀察進程的各項運行指標，例如task目錄就是用來描述進程中線程的，因此也可以通過下面的方法

獲取某進程中運行中的線程數量（PID指的是進程ID）：

ls /proc/PID/task | wc -l

在linux中還有一個命令pmap，來輸出進程內存的狀況，可以用來分析線程堆棧：

pmap PID

Linux&&top命令詳解