線上故障處理原則

墨菲定律

任何事情都沒有表面看起來那麼簡單
所有事情的發展都會比你預計的時間長
會出錯的事情總會出錯
如果擔心某個事情發生，那麼它更有可能發生

墨菲定律暗示我們，如果擔心某種情況會發生，那麼它更有可能發生，久而久之就一定會發生。這警示我們，在互聯網公司，對生成環境發生的任何怪異現象和問題都不要輕視，對其背後的原因一定要調查清楚。同樣，海恩法則也強調任何嚴重的事故背後都是很多次小問題的積累，當到一定量級後會導致質變，嚴重的問題就會浮出水面。
那麼，我們需要對線上服務產生任何現象，哪怕是小問題，都要刨根問底，對任何現象都要遵循下面問題

爲什麼會發生？
發生了該怎麼應對？
怎麼恢復？
怎麼避免？

應急目標

在生成環境發生故障時快速恢復服務，避免或減少故障帶來的損失，避免或減少故障對客戶的影響

應急原則

應第一時間恢復系統，而不是徹底解決呢問題，快速止損
明顯資金損失時，要第時間升級，快速止損
指標要圍繞目標，快速啓動應急過程與止損方案
當前負責人不能短時間內解決問題，則必須進行升級處理
處理過程在不影響用戶體驗的前提下，保留現場

應急方法與流程

線上應急一般分爲 6 個階段

發現問題
定位問題
解決問題
回顧問題
改進措施

過程中要記住，應急只有一個總體目標：儘快恢復，消除影響。不管處於哪個階段，首先想到的必須是恢復問題，恢復問題不一定能定位問題，也不一定有完美的解決方案，可能通過經驗或者開關等。但這可以達到快速恢復的目的，然後保留現場，以及定位問題，解決問題和覆盤

發現問題

通常我們通過系統層面、應用層面和中間件層面監控來發現問題

系統層面監控包括
1. 系統的 CPU 使用率
2. Load average
3. Memory
4. I/O （網絡與磁盤）
5. SWAP 使用情況
6. 線程數
7. File Description 文件描述符等
應用層面監控包括
1. 接口的響應時間
2. QPS
3. 調用頻次
4. 接口成功率
5. 接口波動率等
中間件層面監控包括數據庫、緩存、消息隊列。
1. 對數據庫的負載、慢查詢、連接數等監控
2. 對緩存的連接數、佔用內存、吞吐量、響應時間等監控
3. 消息隊列的響應時間、吞吐量、負載、堆積情況等監控

定位問題

分析定位過程中先考慮系統最近發生的變化，需要考慮如下幾方面

故障系統最近是否上過線？
依賴的基礎平臺與資源是否升級過？
依賴的系統是否上過線？
運營是否在系統內做過運營變更？
網絡是否有波動？
最近的業務量是否漲了？
運營方是否有促銷活動？

解決問題

解決問題要以定位問題爲基礎，必須清晰定位問題產生的根本原因，在提出解決問題的有效方案，沒有明確原因之前，不用使用各種方法來嘗試修復問題，可能還沒有解決這個問題又引入了下個問題，想想剛剛提到的墨菲定律

回顧問題

解決問題後，需應急團隊與相關方回顧事故產生的原因、應急過程的合理性、提出整改措施，主要聚焦在以下幾個問題：

類似的問題還有哪些沒有發生？
做了哪些事情，事故就不會再發生？
做了哪些事情，及時發生故障，也不會產生影響？

改進措施

根據回顧問題提出的改進措施，以正式的項目管理方式進行統一管理，採用 SMART 原則來跟進

參考

分佈式服務架構原理、設計與實戰

線上故障處理原則

墨菲定律

應急目標

應急原則

應急方法與流程

發現問題

定位問題

解決問題

回顧問題

改進措施

參考

vue綁定對象，綁定的值不改變的問題

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

KubeKey 部署 K8s v1.28.8 實戰

記一些CISP-PTE題目解析

淺談技術價值

線上故障處理原則

關於我

秒殺架構設計

億級 ELK 日誌平臺構建實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結