Linux&&top命令詳解

功能鍵介紹

命令行執行“top”命令後,在“top”頁面使用以下功能鍵:

  • “s”鍵 – 改變畫面刷新頻率(默認3.0)
  • “P”鍵 – 按 CPU 佔用率 從大到小 順序排列進程列表
  • “M”鍵 – 按內存佔用率 從大到小 順序排列進程列表
  • “h”鍵 – 在top頁面打開功能鍵使用方法介紹
  • “c”鍵 - 顯示整個命令行而不只是顯示命令名。
  • “N”鍵 – 按PID 號 從大到小 順序排列表示進程列表
<ENTER>” 或者 “<SPACE>”  -   手動刷新顯示
  • “K”鍵 - 終止一個進程。系統將提示用戶輸入需要終止的進程PID,以及需要發送給該進程什麼樣的信號。一般的終止進程可以使用15信號;如果不能正常結束那就使用信號9強制結束該進程。默認值是信號15。在安全模式中此命令被屏蔽。
  • “r”鍵 - 重新安排一個進程的優先級別。系統提示用戶輸入需要改變的進程PID以及需要設置的進程優先級值。輸入一個正值將使優先級降低,反之則可以使該進程擁有更高的優先權。默認值是10。
  • “p”鍵 - 通過指定監控進程ID來僅僅監控某個進程的狀態。
  • “s”鍵 - 使top命令在安全模式中運行。這將去除交互命令所帶來的潛在危險。
  • “n”鍵 – 設置top頁面可顯示的進程的行數
  • "l"鍵 – 關閉或開啓第一部分第一行 top 信息的表示
  • "t "鍵 – 關閉或開啓第一部分第二行 Tasks 和第三行 Cpus 信息的表示
  • "m"鍵 – 關閉或開啓第一部分第四行 Mem 和 第五行 Swap 信息的表示
  • "S"鍵:指定累計模式。
  • "i"鍵:使top不顯示任何閒置或者僵死進程。這是一個開關式命令。
  • "f或者F"鍵:從當前顯示中添加或者刪除項目。
  • "o或者O"鍵:改變顯示項目的順序
  • "T"鍵:根據時間/累計時間進行排序。
  • "W"鍵:將當前設置寫入~/.toprc文件中

top 默認排序是%CPU,若想切換:
shift+> 或者shift+< 向右或者向左切換排序基準。

各行含義詳解

第一行:系統運行時間和平均復負載

在這裏插入圖片描述

  • 21:45:35 - 當前系統時間
  • 670days,10:01 - 當前系統已運行的時間(在這期間沒有重啓過)
  • 2 users - 當前登錄用戶的數量(當前有2個用戶登錄系統)
  • Load average:5.05,5.13,5.13 - 系統的平均負載:最近5分鐘內,最近10分鐘內,最近15分鐘內的平均負載。

命令行直接執行“uptime”命令可單獨顯示該行
load average數據是每隔5秒鐘檢查一次活躍的進程數,然後按特定算法計算出的數值。如果這個數除以邏輯CPU的數量,結果高於5的時候就表明系統在超負荷運轉了。
根據筆者以往的經驗來看單核負載在3-5之間比較合適,經常在1以下,說明cpu利用率不高,在5以上,cpu會處於較高負載狀態,會容易宕機。有一次項目上線,晚上加班觀察服務器狀況,這個值長時間保持在72左右,因爲服務器有八核,所以每核的值爲9,後來服務器就掛了。

“所以你說的理想負荷爲 1.00 ?”
  嗯,這種情況其實並不完全正確。負荷 1.00 說明系統已經沒有剩餘的資源了。在實際情況中 ,有經驗的系統管理員都會將這條線劃在 0.70:
  “需要進行調查法則”: 如果長期你的系統負載在 0.70 上下,那麼你需要在事情變得更糟糕之前,花些時間瞭解其原因。
  “現在就要修復法則”:1.00 。 如果你的服務器系統負載長期徘徊於 1.00,那麼就應該馬上解決這個問題。否則,你將半夜接到你上司的電話,這可不是件令人愉快的事情。
  “凌晨三點半鍛鍊身體法則”:5.00。 如果你的服務器負載超過了 5.00 這個數字,那麼你將失去你的睡眠,還得在會議中說明這情況發生的原因,總之千萬不要讓它發生。

第二行:任務(進程)

在這裏插入圖片描述
第二行顯示的是任務或者進程的總結,系統現在共有113個進程,其中處於運行(running)狀態的進程有1個,112個進程在休眠(sleeping)狀態,stopped(停止)狀態的進程有0個,zombie(殭屍)狀態的進程有0個。
查找running狀態進程?
ps -aux | grep R
查找zombie狀態進程?出現原因?
ps -aux | grep Z

第三行:cpu運行情況

在這裏插入圖片描述

  • 1.0%us:(user)運行用戶態進程佔用CPU時間百分比,不包含renice值爲負的任務佔用的CPU的時間。(運行未調整優先級的用戶進程的CPU時間)
  • 0.5%sy:(system)運行內核進程佔用CPU時間百分比
  • 0.0%ni:renice值爲負的任務的用戶態進程的CPU時間百分比。nice是優先級的意思(運行已調整優先級的用戶進程的CPU時間)
  • 98.5%id:空閒CPU時間百分比
  • 0.0%wa:Percentage of time that the CPU or CPUs were idle during which the system had an outstanding disk I/O request.
    用於等待I/O的CPU時間百分比
  • 0.0%hi:CPU處理硬件中斷(Hardware IRQ)時間百分比
  • 0.0%si:CPU處理軟件中斷(Software Interrupts)時間百分比
  • 0.0%st:這個虛擬機被hypervisor偷去的CPU時間(譯註:如果當前處於一個hypervisor下的vm,實際上hypervisor也是要消耗一部分CPU處理時間的)

第四行:memory使用情況

在這裏插入圖片描述

  • 8133084k total:物理內存總量
  • 7033324k used:使用的物理內存量
  • 1099760k free:空閒的物理內存量
  • 1109104k buffers:用作內核緩存的物理內存量

第五行:swap使用情況

在這裏插入圖片描述

  • 2097148k total:交換區總量
  • 122840k used:使用的交換區量
  • 1974308k free:空閒的交換區量
  • 5006872k cached:緩衝交換區總量

第四行中使用中的內存總量(used)指的是現在系統內核控制的內存數,空閒內存總量(free)是內核還未納入其管控範圍的數量。納入內核管理的內存不見得都在使用中,還包括過去使用過的現在可以被重複利用的內存,內核並不把這些可被重新使用的內存交還到free中去,因此在linux上free內存會越來越少,但不用爲此擔心。
如果出於習慣去計算可用內存數,這裏有個近似的計算公式:第四行的free + 第四行的buffers + 第五行的cached,按這個公式此臺服務器的可用內存:
1099760+1109104+5006872 =7210M。
對於內存監控,在top裏我們要時刻監控第五行swap交換分區的used,如果這個數值在不斷的變化,說明內核在不斷進行內存和swap的數據交換,這是真正的內存不夠用了。

參考資料:
https://blog.csdn.net/baobingji/article/details/84111380
https://blog.csdn.net/ahjxhy2010/article/details/51177618/

第六行:各進程(任務)的狀態監控

在這裏插入圖片描述

  • PID:進程ID,進程的唯一標識符
  • USER:進程所有者的實際用戶名
  • PR:進程的調度優先級。這個字段的一些值是’rt’。這意味這這些進程運行在實時態。越小越優先被執行
  • NI:進程的nice值(優先級)。越小的值意味着越高的優先級。負值表示高優先級,正值表示低優先級
  • VIRT:(virtual memory usage)虛擬內存

進程“需要的”虛擬內存大小,包括進程使用的庫、代碼、數據等
假如進程申請100m的內存,但實際只使用了10m,那麼它會增長100m,而不是實際的使用量.單位kb。VIRT=SWAP+RES

  • RES:(resident memory usage)常駐內存

進程當前使用的內存大小,但不包括swap out
包含其他進程的共享
如果申請100m的內存,實際使用10m,它只增長10m,與VIRT相反
關於庫佔用內存的情況,它只統計加載的庫文件所佔內存大小,單位kb。
RES=CODE+DATA

  • SHR:(shared memory)共享內存

除了自身進程的共享內存,也包括其他進程的共享內存
雖然進程只使用了幾個共享庫的函數,但它包含了整個共享庫的大小
計算某個進程所佔的物理內存大小公式:RES – SHR
swap out後,它將會降下來

  • S:進程狀態。(D=不可中斷的睡眠狀態,R=運行態,S=睡眠態,T=被跟蹤/已停止,Z=殭屍進程)
  • %CPU:上次更新到現在的CPU時間佔用百分比
  • %MEM:進程使用的物理內存百分比
  • TIME+:任務啓動後到現在所使用的全部CPU時間,精確到百分之一秒。單位1/100秒
  • COMMAND:運行進程所使用的命令。進程名稱(命令名/命令行)
  • SWAP: 進程使用的虛擬內存中,被換出的大小,單位kb。
  • CODE: 可執行代碼佔用的物理內存大小,單位kb
  • DATA: 可執行代碼以外的部分(數據段+棧)佔用的物理內存大小,單位kb

1、數據佔用的內存。如果top沒有顯示,按f鍵可以顯示出來。
2、真正的該程序要求的數據空間,是真正在運行中要使用的。

  • TTY:啓動進程的終端名。不是從終端啓動的進程則顯示爲 ?

拓展:

  • PPID 父進程id
  • RUSER Real user name
  • UID 進程所有者的用戶id
  • USER 進程所有者的用戶名
  • GROUP 進程所有者的組名
  • P 最後使用的CPU,僅在多CPU環境下有意義
  • TIME 進程使用的CPU時間總計,單位秒
  • nFLT 頁面錯誤次數
  • nDRT 最後一次寫入到現在,被修改過的頁面數。
  • WCHAN 若該進程在睡眠,則顯示睡眠中的系統函數名
  • Flags 任務標誌,參考 sched.h

通過 f 鍵可以選擇顯示的內容。按 f 鍵之後會顯示列的列表,按 a-z 即可顯示或隱藏對應的列,最後按回車鍵確定。
按 o 鍵可以改變列的顯示順序。按小寫的 a-z 可以將相應的列向右移動,而大寫的 A-Z 可以將相應的列向左移動。最後按回車鍵確定。
按大寫的 F 或 O 鍵,然後按 a-z 可以將進程按照相應的列進行排序。而大寫的 R 鍵可以將當前的排序倒轉。

查看多核CPU命令

mpstat -P ALL 和 sar -P ALL
在這裏插入圖片描述

sar -P ALL > aaa.txt 重定向輸出內容到文件 aaa.txt

top功能鍵使用實例

在top基本視圖中,按鍵盤數字“1”,可監控每個邏輯CPU的狀況:
在這裏插入圖片描述
觀察上圖,服務器有16個邏輯CPU,實際上是4個物理CPU。
進程字段排序:
默認進入top時,各進程是按照CPU的佔用量來排序的,在【top視圖 01】中進程ID爲14210的Java進程排在第一(cpu佔用100%),進程ID爲14183的java進程排在第二(cpu佔用12%)。可通過鍵盤指令來改變排序字段,比如想監控哪個進程佔用MEM最多,我一般的使用方法如下:
敲擊鍵盤“b”(打開/關閉加亮效果),top的視圖變化如下:

在這裏插入圖片描述
我們發現進程id爲10704的“top”進程被加亮了,top進程就是視圖第二行顯示的唯一的運行態(runing)的那個進程,可以通過敲擊“y”鍵關閉或打開運行態進程的加亮效果。
敲擊鍵盤“x”(打開/關閉排序列的加亮效果),top的視圖變化如下:
在這裏插入圖片描述
可以看到,top默認的排序列是“%CPU”。
通過”shift + >”或”shift + <”可以向右或左改變排序列,下圖是按一次”shift + >”的效果圖:
在這裏插入圖片描述
視圖現在已經按照%MEM來排序了。
敲擊“f”鍵,top進入另一個視圖,在這裏可以編排基本視圖中的顯示字段:
在這裏插入圖片描述
這裏列出了所有可在top基本視圖中顯示的進程字段,有星號並且標註爲大寫字母的字段是可顯示的,沒有”*”並且是小寫字母的字段是不顯示的。如果要在基本視圖中顯示“CODE”和“DATA”兩個字段,可以通過敲擊“r”和“s”鍵:
“回車”返回基本視圖,可以看到多了“CODE”和“DATA”兩個字段:
在這裏插入圖片描述
top命令的補充:
top命令是Linux上進行系統監控的首選命令,但有時候卻達不到我們的要求,比如當前這臺服務器,top監控有很大的侷限性。這臺服務器運行着websphere集羣,有兩個節點服務,就是【top視圖 01】中的老大、老二兩個java進程,top命令的監控最小單位是進程,所以看不到我關心的java線程數和客戶連接數,而這兩個指標是java的web服務非常重要的指標,通常我用ps和netstate兩個命令來補充top的不足。

監控java線程數:

ps -eLf | grep java | wc -l

監控網絡客戶連接數:

netstat -n | grep tcp | grep 偵聽端口 | wc -l

上面兩個命令,可改動grep的參數,來達到更細緻的監控要求。
在Linux系統“一切都是文件”的思想貫徹指導下,所有進程的運行狀態都可以用文件來獲取。系統根目錄/proc中,每一個數字子目錄的名字都是運行中的進程的PID,進入任一個進程目錄,可通過其中文件或目錄來觀察進程的各項運行指標,例如task目錄就是用來描述進程中線程的,因此也可以通過下面的方法

獲取某進程中運行中的線程數量(PID指的是進程ID):

ls /proc/PID/task | wc -l

在linux中還有一個命令pmap,來輸出進程內存的狀況,可以用來分析線程堆棧:

pmap PID

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章