監控平臺實施方案

撰寫:田逸([email protected]

基本目標

 監控有效性:監控能正確反應系統、應用運行狀態,發生故障能及時告警;對重要對象進行監控,能定位到問題即可;不面面俱到,增加負擔及複雜度。
 平臺可用性:監控平臺本身也可能存在故障的風險,因此,需要建立起一套可用性保證機制。一是在硬件層面保證部分硬件失效時,監控服務不受影響;二是萬一系統崩潰,能夠重建平臺並進行數據恢復。
 信息安全性:網絡隔離及用戶授權。

方案設計

 監控架構
監控分服務器端及被監控端,其中服務器端獨立部署,而被監控端根據監控要求,有的監控項需要在被監控端安裝插件,而有的不需要。按這個需求來分類,監控主機存活、服務端口或者web的url,不需要在安裝插件;而諸如監控系統負載、磁盤空間使用、進程數等,屬於主機資源監控的類型,則需要安裝插件。
監控平臺實施方案
 平臺可用性架構
分兩個層面,一個是硬件冗餘,另一個是備份恢復機制。
(1) 硬件冗餘:單臺物理主機,保證電源及硬盤冗餘及容錯,降低down機機率。同時配置相同配置的物理主機,作爲備份或者備用機。
(2) 應用層面底層採用虛擬化,監控平臺運行與虛擬機,並自動對虛擬機進行異地(機)備份。系統崩潰時,重建系統,用虛擬機備份快速恢復數據。
監控平臺實施方案

技術實現

 對象監控實現
監控平臺安裝在虛擬機上,安裝好所需各種組建(web、數據庫、php等),能通過web界面進行各種管理操作。監控系統採用業內知名的nagios,久經考驗,且不存在法律及授權風險。在需要監控主機資源的系統上,安裝與nagios配套的插件nrpe,捨棄繁複的snmp,即提高了安全性,又降低了資源的耗費。
 可用性實現
底層用開源私有云工具proxmox虛擬化,在其上創建兩個虛擬機,一個用於安裝nagios監控,另一個用於安裝nfs共享磁盤。兩臺物理主機,一個上邊運行監控系統,而另一臺共享出nfs磁盤空間,被掛接到監控系統上,做監控系統的虛擬機自動備份使用。
 監控系統總覽
主要項目包括:主機、主機組、服務、服務組、聯繫人、聯繫組、監控狀態等等。

監控平臺實施方案

實施步驟

 物理機上架,通電,連接網絡線纜;開機,硬盤做好raid。
 安裝底層虛擬化環境,並保證網絡連通。
 配置虛擬機環境,並創建所需要的虛擬機。
 安裝虛擬機操作系統。
 部署nagios監控、部署nfs共享存儲。
 被監控端安裝插件,配置並啓動守護進行。
 添加監控項,並使之使之生效。
 被監控端人爲模擬故障,檢查監控是否有效(故障告警、恢復)

工具列表

 監控系統centreon2.8(封裝過的nagios),從centreon官方下載,無需授權。
 監控系統插件nagios-plugin,從nagios官方網站下載。
 監控遠程插件NRPE(nagios remote plugin executor),從nagios官方網站下載。
 共享存儲nfs,linux自帶。
 虛擬化管理平臺proxmox,從其官方網站下載。
 其它工具如apache、php、mysql等,從網上下載。

實施要求

 監控服務器能訪問到被監控端,無需通過第三方轉發;
 監控服務器能訪問公網,以便能下載所需的軟件和依賴,否則無法進行安裝;
 如需要從公網操作監控平臺,最好可以分配公網ip;
 被監控端需要開啓tcp 5666端口,不能被防火牆所阻止;
 需少數系統臨時模擬故障發生,一遍測試監控的有效性;
 需提供使用此監控人員的名單,以便進行合理授權;
 爲便於配置和後期維護,強烈建議開通遠程登錄權限(如***授權),這樣能大大提高效率;
 分配足夠可使用的ip地址。

注意事項

 部署監控服務器端時,確保ip設置唯一,不要與其它主機的ip產生衝突;
 被監控端部署NRPE時,需徵得相關人員同意;防火牆開放端口(如有啓用)需得到支持後再往下進行;同時,不能因爲安裝引起業務中斷。

附錄:服務器配置要求
名稱 規格型號 數量 備註
Cpu 志強2600系列 2顆 2臺機器共四顆
內存 Ddr4 16G 64G 共8根
硬盤 Sas 15000轉 600G 至少3塊 共6塊或者更多
電源 雙電源 1 4個

更加體系化和實例化的proxmox超融合私有云實踐系列文章,請移步本人專欄“人人都能玩的私有云神器-proxmox”,猛戳此處,片刻直達!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章