原文地址:http://blog.sina.com.cn/s/blog_87ace1a00101kp0y.html
產品運維建議初步整理:
1.要有專門的人負責運維,至少當非開發人員發現問題時,能夠在第一時間找到問題處理人。
2.每天定時查詢服務器的運行狀態,至少早上上班時和晚上下班前兩次;每天下班前發送“日常運維報告”郵件給主要關係人;每週整理一次“周運維報告”,統一當周系統運行情況。
3.提供部署手冊、運維手冊和操作手冊;提供系統升級部署文檔規範。
4.整理該產品常見問題的解決方法日誌,當遇到不能解決的問題時,要根據問題的嚴重性,給出處理時長;並將後續的常見問題解決辦法持續集成。
5.準備應急預案。當發生異常情況時,要能快速找到明確的問題負責人和問題解決人員;儘快確定問題的處理方式,並將處理結果通知給問題發現者和問題關係人。
6.可以開發一個簡單的系統監控程序。檢查服務器、軟件、數據庫的狀態,第一時間將異常以郵件或其他形式通知給相關負責人員,提高應急處理能力,減少投訴量。
運維手冊主要包含以下內容:
1. 系統運行環境
1.1 硬件(服務器品牌、型號、CPU顆數、CPU主頻、內存大小、硬盤大小、網卡塊數)
1.2 操作系統(名稱、版本、32/64位)
1.3 軟件
1.3.1 WEB服務器(名稱、版本、32/64位)
1.3.2 JDK(版本、32/64位)
1.4 數據庫(名稱、版本、客戶端連接管理工具、編碼類型)
1.5 網絡(網卡地址及對應的作用描述)
2. 文件清單
3. 部署位置
3.1 程序安裝位置
3.2 備份文件位置
3.3 升級文件位置
4. 主要配置文件及說明
5. 基本維護
5.1 日誌(位置)
5.2 系統新數據錄入方法(如:增加門店)
6. 賬戶信息
6.1 遠程登陸(地址、端口、賬號和密碼。)
6.2 FTP(地址、端口、賬號和密碼。)
6.3 數據庫(地址、端口、賬號和密碼。)
7. 其他
7.1 新增門店時的配置要點
操作手冊主要包含如下內容:
(含各個入口訪問地址[如有HTTPS方式也請附上];軟件客戶端下載、安裝說明;手機客戶端android、IOS和管理後臺的使用說明)。
應急預案:
規範應急應急預案處理流程。
1. 問題第一負責人(部門/組、姓名、手機號碼、郵箱、備註)
2. 細分問題負責人(部門/組、姓名、手機號碼、郵箱、備註)
3. 問題處理建議時間。
4. 解決問題的主要步驟。
部署文檔:
略,部分參見運維手冊。
升級文檔:
1. 列出要上傳的文件清單;
2. 寫清楚升級的每個文檔放置的位置;
3. 需要修改配置文件的,請加以描述;
4. 有必要的話,請簡單描述其作用;
監控程序:
1. 簡單的監控程序,可以通過一個JSP網頁,編寫一個簡單連接數據庫的腳本,部署在各個門店服務器上。在雲服務器上,定時訪問這些部署在門店服務器上的JSP網頁,通過返回結果,初步判定程序的健康狀況。
一旦出現連接錯誤,可及時通過發送郵件等方式自動提醒。
常見問題:
形成問題解決日誌。通過長期運維積累,記錄問題解決辦法,逐步形成系統運維知識庫,以備後用。
運維報告:
運維報告,要用統一格式的文檔。詳細記錄一下內容:
1. 服務器硬件資源使用情況。(CPU利用率,內存使用率、硬盤剩餘空間)
2. 操作系統運行情況。(是否有系統異常提醒、安全提醒)。事前應做好安全防範配置工作,如防火牆等。
3. WEB服務器運行狀態。(JVM使用率波動區間、SESSION數量波動區間、連接數情況)
4. 應用軟件。(是否有異常信息;平均響應速度[可測試3到5次取平均值])
5. 網絡連接情況。(系統與其他系統相關服務器之間的連接是否通暢,IP地址有誤異常[如被篡改等])
最後附上檢查時間,系統總體狀態評價,記錄發現的問題及待解決的問題(此條需要持續跟蹤直至解決)。
最後,要注意軟件運營版本管理。每個版本要附上增加的內容或變更的事項,以方便運維。(此條尤爲重要,可明確此版本產品的系統邊界;尤其接到客戶電話時,防止尷尬和露怯)。