技術故障等級制定

在業務發展初期,儘快搶佔市場,儘可能快的完善產品的功能,往往會背上不小的技術債務,隨着業務發展業務上要精細化,技術上也需要有精細化的策略,控制問題的程度;業務人羣分層,技術故障分層。

這個時候就要考慮,技術系統中的故障該如何處理。

常見的劃分方式:

  • 影響的用戶數
  • 影響的時長
  • 功能的重要性;核心功能還是非核心功能
  • 給公司造成了多少損失
影響用戶少 影響用戶多
影響時間短 系統抖動;特殊用戶;一般不考慮故障,但是要有解決方案 秒殺場景;高QPS的場景;有相對充足的時間解決問題
影響時間長 低頻功能,如提現、商品評價;有相對充足的時間解決問題 核心功能,首頁不可用,支付不可用,儘管很短的時間都有很大的影響。

一般來說:資損 > 核心功能 > 非核心功能

  • 核心功能具備用戶多的特點,只要核心功能出了問題,就會影響到大量用戶,嚴重的問題就是持續影響用戶
  • 有資損場景的功能出了問題也很嚴重,可能少量用戶就是嚴重問題。
  • 對非核心功能場景又要看功能特點,非核心功能要結合業務核心功能看。

非核心功能,比如Push:

  • 發錯了是嚴重的問題;看覆蓋範圍有多大,是配置問題,還是系統問題? 因爲覆蓋的用戶量比較大
  • 發不出去是問題,看持續時長有多久,配置問題,還是系統問題?
  • 給用戶重複發同一個內容,也是問題,但是要看影響了多少人。

可能的系統問題:

  • 佔位符計算
  • 數據庫不穩定
  • 系統負載瓶頸
  • 代碼bug,應用掛掉

影響的用戶量,最終的行動:

  • MAU的1%: 警告
  • MAU的5%:覆盤
  • MAU的20%:深度覆盤
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章