上篇博文學習了cacti優秀的檢測與圖形分析功能,這次來着重介紹下nagios這款監控軟件的安裝配置方面
在使用nagios之前先來介紹下它的原理,nagios能監控服務和主機,但是它本身並不能實現這個功能,這個功能是由插件來完成的,nagios定義了4種監控狀態代碼爲OK代表正常,代碼爲WARNING代表警報,代碼爲CRITICAL代表爲嚴重錯誤,代碼爲UNKNOWN代表未知錯誤
實現監控服務主機需要的軟件
nagios,nagios-plugins,這兩個個包都可以在nagios 的官方網站下載到具體怎麼下載就不用說了
實驗的效果是通過軟件來遠程監控主機的服務狀態 這裏我定義一臺機器,安裝httpd服務,讓nagios來監控服務的狀態
實驗拓撲圖如下
在監控機要安裝nagios由於nagios和cacti已經集成到這個系統就不需要再安裝nagios了,要實現通過插件監控遠程機服務狀態運行情況,
實驗步驟
1 在被監控機中安裝所需服務(apache)
2 定義監控內容
1)定義監控時間
vi /usr/local/nagios/etc/timeperiods.cfg
這裏系統都給我們定義好了接下來設置監控所用的命令
vi /usr/local/nagios/etc/checkcommands.cfg
看到有一條是check-host-alive的定義命令 我們準備用這個命令來做出實驗效果,檢查apache這個機器是否還活着
那麼怎麼定義監控誰呢 在hosts.cfg中定義要監控的機器和監控用到的命令
上述意思是監控主機的名字和別名 監控主機的地址 監控命令 監控選項 d爲down狀態發送通知 u爲unreachable狀態發送通知r爲recovery恢復通知 間隔時間 重試次數 聯繫組 監控時間…
check_command 要根據checkcommand裏的命令來寫不可寫錯,contact_groups要從contactgroups.cfg裏定義的組來寫不可寫錯 否則nagios會啓動不起來報錯
定義了監控誰之後就要做監控之後發生情況要通知誰啦在文件夾目錄下有contacts.cfg文件默認定義了監控事件的通知,稍微修改或者不修改都可以的
這裏默認是郵件發向localhost的root
重啓nagios服務 /etc/init.d/nagios restart
這時就可以看到www.test.com這臺主機 也就是192.168.1.4這臺主機的監控信息了
這時我把這臺主機的網絡連接斷掉 兩分鐘後查看下 如下圖
顯示主機已經down掉,這時我們再重新連接網絡
可以看到主機已經恢復
nagios不僅可以監控主機狀態還可以監控遠程主機服務狀態
vi /usr/local/nagios/etc/services.cfg
在這裏通知選項裏多了個c 這個c是critical 嚴重錯誤的意思 重啓nagios後等兩分鐘
我把被監控機apache服務關閉之後在看
apache的狀態變成了critical 嚴重錯誤狀態
啓動apache之後處於OK狀態了
以上這種監控只能監控遠程主機的連通性和服務狀態 如果我需要監控每一臺遠程機器的內部信息就需要另外一種方法了