背景
阿里集團針對故障處理提出了“1/5/10”的目標-- 1 分鐘發現、5 分鐘定位、10 分鐘恢復,這對我們的定位能力提出了更高的要求。
EMonitor 是一款集成 Tracing 和 Metrics、服務於餓了麼所有技術部門的一站式監控系統,其覆蓋了
- 前端監控、接入層監控;
- 業務 Trace 和 Metric 監控;
- 所有的中間件監控;
- 容器監控、物理機監控、機房網絡監控。
每日處理總數據量近 PB,每日寫入指標數據量幾百 T,日均幾千萬的指標查詢量,內含上萬個圖表、數千個指標看板,並且已經將所有層的監控數據打通並串聯了起來。但是在故障來臨時,用戶仍然需要花費大量時間來查看和分析 EMonitor 上的數據。
比如阿里本地生活的下單業務,涉及到諸多應用,每個應用諸多 SOA 服務之間錯綜複雜的調用關係,每個應用還依賴 DB、Redis、M