ganglia之gmetad響應慢及數據延遲的控制和緩解（hadoop相關監控）

原創

2020-02-24 11:55

hadoop 相關監控，通常在幾百個監控指標，在ganglia上進行監控的話，建議Master和Slave分開收集，最好使用兩套ganglia來監控。

對於一個ganglia的gmetad，每個節點的監控指標不要超過200個。ganglia處理1000-2000個指標已經可以了。再多，就會出現響應延時，CPU佔用太高。

最近用ganglia監控hadoop的調度系統（corona ，後續會使用yarn），本來ganglia系統正常，但是壓力測試中增加了上萬個調度的pool；

每個pool都會形成一個指標，結果發現gmetad的cpu佔用平均10%，很多節點的數據幾分鐘沒有更新。排查好長時間才發現是這個配置引起的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.