無監控不運維——使用 Python 寫一個小小的項目監控

在公司裏做的一個接口系統,主要是對接第三方的系統接口,所以,這個系統裏會和很多其他公司的項目交互。隨之而來一個很蛋疼的問題,這麼多公司的接口,不同公司接口的穩定性差別很大,訪問量大的時候,有的不怎麼行的接口就各種出錯了。

這個接口系統剛剛開發不久,整個系統中,處於比較邊緣的位置,不像其他項目,有日誌庫,還有短信告警,一旦出問題,很多情況下都是用戶反饋回來,所以,我的想法是,拿起 Python,爲這個項目寫一個監控。如果在調用某個第三方接口的過程中,大量出錯了,說明這個接口有有問題了,就可以更快的採取措施。

項目的也是有日誌庫的,所有的 info,error 日誌都是每隔一分鐘掃描入庫,日誌庫是用的 mysql,表裏有幾個特別重要的字段:

有日誌庫,就不用自己去線上環境掃日誌分析了,直接從日誌庫入手。由於日誌庫在線上時每隔1分鐘掃,那我就去日誌庫每隔2分鐘掃一次,如果掃到有一定數量的 error 日誌就報警,如果只有一兩條錯誤就可以無視了,也就是短時間爆發大量錯誤日誌,就可以斷定系統有問題了。報警方式就用發送郵件,所以,需要做下面幾件事情:

操作:

1.MySql。

2.發送郵件。

3.定時任務。

4.日誌。

5.運行腳本。

明確了以上幾件事情,就可以動手了。

操作數據庫

使用MySQLdb這個驅動,直接操作數據庫,主要就是查詢操作。

獲取數據庫的連接:

 

從日誌庫裏獲取數據,獲取當前時間之前2分鐘的數據,首先,根據當前時間進行計算一下時間

 

然後,根據時間和日誌級別去日誌庫查詢數據

發送郵件

使用python發送郵件比較簡單,使用標準庫smtplib就可以

這裏使用163郵箱進行發送,你可以使用其他郵箱或者企業郵箱都行,不過host和port要設置正確。

 

 

定時任務

使用一個單獨的線程,每2分鐘掃描一次,如果ERROR級別的日誌條數超過5條,就發郵件通知。

日誌

爲這個小小的腳本配置一下日誌log.py,讓日誌可以輸出到文件和控制檯中。

 

所以,最後,這個監控小程序就是這樣的 app_monitor.py

 

運行腳本

腳本在服務器上運行,使用 supervisor 進行管理。

在服務器(centos6)上安裝 supervisor,然後在 /etc/supervisor.conf 中加入一下配置

 

然後在終端中運行 supervisord 啓動 supervisor。

在終端中運行 supervisorctl,進入 shell,運行 status 查看腳本的運行狀態。

總結

這個小監控思路很清晰,還可以繼續修改,比如:監控特定的接口,發送短信通知等等。

因爲有日誌庫,就少了去線上正式環境掃描日誌的麻煩,所以,如果沒有日誌庫,就要自己上線上環境掃描,在正式線上環境一定要小心哇~

閱讀原文

Python 基礎入門課程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章