運維手冊

原文地址:http://blog.sina.com.cn/s/blog_87ace1a00101kp0y.html

產品運維建議初步整理:

1.要有專門的人負責運維,至少當非開發人員發現問題時,能夠在第一時間找到問題處理人。

2.每天定時查詢服務器的運行狀態,至少早上上班時和晚上下班前兩次;每天下班前發送“日常運維報告”郵件給主要關係人;每週整理一次“周運維報告”,統一當周系統運行情況。

3.提供部署手冊、運維手冊和操作手冊;提供系統升級部署文檔規範。

4.整理該產品常見問題的解決方法日誌,當遇到不能解決的問題時,要根據問題的嚴重性,給出處理時長;並將後續的常見問題解決辦法持續集成。

5.準備應急預案。當發生異常情況時,要能快速找到明確的問題負責人和問題解決人員;儘快確定問題的處理方式,並將處理結果通知給問題發現者和問題關係人。

6.可以開發一個簡單的系統監控程序。檢查服務器、軟件、數據庫的狀態,第一時間將異常以郵件或其他形式通知給相關負責人員,提高應急處理能力,減少投訴量。

運維手冊主要包含以下內容:

1. 系統運行環境

1.1 硬件(服務器品牌、型號、CPU顆數、CPU主頻、內存大小、硬盤大小、網卡塊數)

1.2 操作系統(名稱、版本、32/64位)

1.3 軟件

1.3.1 WEB服務器(名稱、版本、32/64位)

1.3.2 JDK(版本、32/64位)

1.4 數據庫(名稱、版本、客戶端連接管理工具、編碼類型)

1.5 網絡(網卡地址及對應的作用描述)

2. 文件清單

3. 部署位置

3.1 程序安裝位置

3.2 備份文件位置

3.3 升級文件位置

4. 主要配置文件及說明

5. 基本維護

5.1 日誌(位置)

5.2 系統新數據錄入方法(如:增加門店)

6. 賬戶信息

6.1 遠程登陸(地址、端口、賬號和密碼。)

6.2 FTP(地址、端口、賬號和密碼。)

6.3 數據庫(地址、端口、賬號和密碼。)

7. 其他

7.1 新增門店時的配置要點

操作手冊主要包含如下內容:

(含各個入口訪問地址[如有HTTPS方式也請附上];軟件客戶端下載、安裝說明;手機客戶端android、IOS和管理後臺的使用說明)。

應急預案:

規範應急應急預案處理流程。

1. 問題第一負責人(部門/組、姓名、手機號碼、郵箱、備註)

2. 細分問題負責人(部門/組、姓名、手機號碼、郵箱、備註)

3. 問題處理建議時間。

4. 解決問題的主要步驟。

部署文檔:

略,部分參見運維手冊。

升級文檔:

1. 列出要上傳的文件清單;

2. 寫清楚升級的每個文檔放置的位置;

3. 需要修改配置文件的,請加以描述;

4. 有必要的話,請簡單描述其作用;

監控程序:

1. 簡單的監控程序,可以通過一個JSP網頁,編寫一個簡單連接數據庫的腳本,部署在各個門店服務器上。在雲服務器上,定時訪問這些部署在門店服務器上的JSP網頁,通過返回結果,初步判定程序的健康狀況。

一旦出現連接錯誤,可及時通過發送郵件等方式自動提醒。

常見問題:

形成問題解決日誌。通過長期運維積累,記錄問題解決辦法,逐步形成系統運維知識庫,以備後用。

運維報告:

運維報告,要用統一格式的文檔。詳細記錄一下內容:

1. 服務器硬件資源使用情況。(CPU利用率,內存使用率、硬盤剩餘空間)

2. 操作系統運行情況。(是否有系統異常提醒、安全提醒)。事前應做好安全防範配置工作,如防火牆等。

3. WEB服務器運行狀態。(JVM使用率波動區間、SESSION數量波動區間、連接數情況)

4. 應用軟件。(是否有異常信息;平均響應速度[可測試3到5次取平均值])

5. 網絡連接情況。(系統與其他系統相關服務器之間的連接是否通暢,IP地址有誤異常[如被篡改等])

最後附上檢查時間,系統總體狀態評價,記錄發現的問題及待解決的問題(此條需要持續跟蹤直至解決)。

最後,要注意軟件運營版本管理。每個版本要附上增加的內容或變更的事項,以方便運維。(此條尤爲重要,可明確此版本產品的系統邊界;尤其接到客戶電話時,防止尷尬和露怯)。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章