阿里本地生活EMonitor根因分析大揭祕

背景

阿里集團針對故障處理提出了“1/5/10”的目標-- 1 分鐘發現、5 分鐘定位、10 分鐘恢復,這對我們的定位能力提出了更高的要求。

EMonitor 是一款集成 TracingMetrics、服務於餓了麼所有技術部門的一站式監控系統,其覆蓋了

  • 前端監控、接入層監控;
  • 業務 Trace 和 Metric 監控;
  • 所有的中間件監控;
  • 容器監控、物理機監控、機房網絡監控。

每日處理總數據量近 PB,每日寫入指標數據量幾百 T,日均幾千萬的指標查詢量,內含上萬個圖表、數千個指標看板,並且已經將所有層的監控數據打通並串聯了起來。但是在故障來臨時,用戶仍然需要花費大量時間來查看和分析 EMonitor 上的數據。

比如阿里本地生活的下單業務,涉及到諸多應用,每個應用諸多 SOA 服務之間錯綜複雜的調用關係,每個應用還依賴 DB、Redis、M

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章