ganglia之gmetad響應慢及數據延遲的控制和緩解(hadoop相關監控)

hadoop 相關監控,通常在幾百個監控指標,在ganglia上進行監控的話,建議Master和Slave分開收集,最好使用兩套ganglia來監控。

對於一個ganglia的gmetad,每個節點的監控指標不要超過200個。ganglia處理1000-2000個指標已經可以了。再多,就會出現響應延時,CPU佔用太高。


最近用ganglia監控hadoop的調度系統(corona ,後續會使用yarn),本來ganglia系統正常,但是壓力測試中增加了上萬個調度的pool;

每個pool都會形成一個指標,結果發現gmetad的cpu佔用平均10%,很多節點的數據幾分鐘沒有更新。排查好長時間才發現是這個配置引起的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章