ceph分佈式存儲基本運維技巧

原創

qin147896325

2020-06-18 22:04

查看近期集羣中node有沒有發生重啓以及存儲節點負載情況

調整ceph集羣數據恢復速度

查看近期集羣中node有沒有發生重啓以及存儲節點負載情況

onnode all uptime

系統當前時間 17：59：03
up 389 days, 19:23 從上次啓動開始系統運行的時間
2 users 注意這裏實際是連接數量
load average: 7.60, 6.72, 6.12 這是重頭戲，分別描述了1分鐘5分鐘15分鐘內系統平均負載

根據經驗值通常只需查看最後一個參數 [15分鐘內的平均負載]，這裏的平均負載值是相對於單個物理節點
上cpu總核數 【cpu cores = cpu個數 * 單顆cpu核數】，如果cpu開啓了超線程那總核數翻倍

1. 當前系統負荷持續大於0.7 【load average 數值 / cpu總核數】, 需要開始重視, 並排除問題所在
2. 當系統負荷持續大於1.0, 必須開始尋找並解決問題, 否則存儲節點有故障風險, 此時已經是超負荷運行
3. 當系統負荷達到5.0,  節點可能已經故障了

CPU核數查看

查看節點物理cpu個數    
cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

查看節點每個cpu核數    
cat /proc/cpuinfo| grep "cpu cores"| uniq

查看節點cpu總核數      
cat /proc/cpuinfo| grep "processor"| wc -l / grep "model name" /proc/cpuinfo | wc -l

調整ceph集羣數據恢復速度

ceph tell osd.* injectargs "--osd_max_backfills 5 --osd_recovery_max_active 5"

這兩個參數根據具體的使用場景進行動態調整，【1，1】是業務優先，如果想要加快recovery速度, 可是當將參數調大一點，至於調多大要根據集羣硬件配置來決定，也可通過atop、iostat等工具來查看磁盤的壓力，參數太大可造成業務卡頓或者OSD crash

注意：多個參數間沒有逗號

未完待續。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ceph分佈式存儲基本運維技巧

查看近期集羣中node有沒有發生重啓以及存儲節點負載情況

調整ceph集羣數據恢復速度

工作中用到的腳本合集

24-5-18 X

Parallel :部署任務到多臺linux機器

linux中定期打包日誌 — logrotate的用法

ceph分佈式存儲基本運維技巧

flask使用pymysql無法實時查詢到數據庫中更新的內容

ubuntu 下sudo apt-get install <packagename> 失敗解決方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結