ceph分佈式存儲基本運維技巧

目錄

查看近期集羣中node有沒有發生重啓以及存儲節點負載情況

調整ceph集羣數據恢復速度


查看近期集羣中node有沒有發生重啓以及存儲節點負載情況

    

onnode all uptime

系統當前時間 17:59:03
up 389 days, 19:23 從上次啓動開始系統運行的時間
2 users 注意這裏實際是連接數量
load average: 7.60, 6.72, 6.12 這是重頭戲,分別描述了1分鐘5分鐘15分鐘內系統平均負載

根據經驗值通常只需查看最後一個參數 [15分鐘內的平均負載],這裏的平均負載值是相對於單個物理節點
上cpu總核數 【cpu cores = cpu個數 * 單顆cpu核數】,如果cpu開啓了超線程那總核數翻倍

1. 當前系統負荷持續大於0.7 【load average 數值 / cpu總核數】, 需要開始重視, 並排除問題所在
2. 當系統負荷持續大於1.0, 必須開始尋找並解決問題, 否則存儲節點有故障風險, 此時已經是超負荷運行
3. 當系統負荷達到5.0,  節點可能已經故障了

  CPU核數查看

查看節點物理cpu個數    
cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

查看節點每個cpu核數    
cat /proc/cpuinfo| grep "cpu cores"| uniq

查看節點cpu總核數      
cat /proc/cpuinfo| grep "processor"| wc -l / grep "model name" /proc/cpuinfo | wc -l

調整ceph集羣數據恢復速度

ceph tell osd.* injectargs "--osd_max_backfills 5 --osd_recovery_max_active 5"

這兩個參數根據具體的使用場景進行動態調整,【1,1】是業務優先,如果想要加快recovery速度, 可是當將參數調大一點,至於調多大要根據集羣硬件配置來決定,也可通過atop、iostat等工具來查看磁盤的壓力,參數太大可造成業務卡頓或者OSD crash

注意:多個參數間沒有逗號

未完待續。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章