Redis崩了,我成功把鍋甩給了隔壁組

項目起不來了!

... 項目又起不來了!

... 又雙叒叕???!!!

上週經常聽到組裏同事說項目又雙叒叕掛了, Redis連不上, 筆者在另一套正常的環境忙着開發新需求, 沒空關心這個問題.(PS: 反正我的環境能用(´థ౪థ)σ , 先忙完我的再說).

於是乎, 看了一眼日誌, 連接數過多... emmm, 順手幫同事把Redis配置裏連接數上限加了個0, 問題排查什麼的等忙完再說.

ERR max number of clients reached

終於... 該來的總逃不掉, 筆者用的環境也被搞崩了, 而且是莫名其妙地就涼了.

不過... 因吹斯汀 !
Redis崩了,我成功把鍋甩給了隔壁組

修改連接數上限畢竟治標不治本, 本來連接數上限就是10000, 微服務總共才幾十個, 按理說根本用不完.

肯定有人沒關連接, 查他.
Redis崩了,我成功把鍋甩給了隔壁組

已知:

Redis服務重啓後, 用一段時間連接就又滿了. 服務總共幾十個, 配置的一萬連接數正常情況下不大可能用完.

第一步 重啓並搶先佔一個連接
筆者重啓了Redis後, 立即連接到Redis, 查看客戶端數量(晚了就連不上了):

$ docker exec -it $(docker ps | grep redis | awk '{print $1}') redis-cli -a {pwd}
127.0.0.1:6379> info
...
# Clients
connected_clients:391
...

tips:

info命令能查看關於 Redis 服務器的各種信息和統計數值.

第二步 記錄全部客戶端
幾分鐘後再次查看:

127.0.0.1:6379> info
...
# Clients
connected_clients:10002
...

此時, 連接已經被全部佔滿了.
Redis崩了,我成功把鍋甩給了隔壁組

將全部客戶端信息保存到文件準備抓出這個搞事情的老哥.

127.0.0.1:6379> client list
id=7863 addr=172.18.0.104:56836 fd=6150 name= age=72 idle=72 flags=N db=0 sub=0 psub=0 multi=-1 qbuf=0 qbuf-free=0 obl=0 oll=0 omem=0 events=r cmd=ping
id=7864 addr=172.18.0.50:56262 fd=6151 name= age=72 idle=72 flags=N db=9 sub=0 psub=0 multi=-1 qbuf=0 qbuf-free=0 obl=0 oll=0 omem=0 events=r cmd=ping
id=7865 addr=172.18.0.104:56840 fd=6152 name= age=72 idle=72 flags=N db=0 sub=0 psub=0 multi=-1 qbuf=0 qbuf-free=0 obl=0 oll=0 omem=0 events=r cmd=ping
...

Redis崩了,我成功把鍋甩給了隔壁組

ips:

client list: 列出全部客戶端信息.

第三步 找出異常IP
有了全部的客戶端連接信息, 就能找出到底是誰的鍋了. 使用命令輸出連接數前五的IP:

$ cat client-list | awk '{print $2}' | awk -F "[=:]" '{print $2}' | sort | uniq -c | sort -k1,1nr | head -5
5432 172.18.0.50
4244 172.18.0.104
  43 172.18.0.59
  40 172.18.0.54
  32 172.18.0.55
到目前爲止, 鎖定了172.18.0.50和172.18.0.104兩個IP. 這兩個都是docker內部網絡的地址.

tips:

awk '{print $2}: 輸出第二列, 即IP. addr=172.18.0.104:56836.

awk -F "[=:]" '{print $2}': 通過等號和冒號拆分addr=172.18.0.104:56836, 並輸出中間的IP.

sort: 排序.

uniq -c: 統計數量並在每列旁邊顯示該行重複出現的次數.

第四步 定位服務並把鍋扔過去
拿到了IP就離目標不遠了, 通過docker inspect能輸出docker實例的信息, 其中就包括IP.

$ docker inspect --format='{{.Name}} - {{range .NetworkSettings.Networks}}{{.IPAddress}}{{end}}' $(docker ps -aq) | grep 172.18.0.50
/docker_xxxxx-service - 172.18.0.50
$ docker inspect --format='{{.Name}} - {{range .NetworkSettings.Networks}}{{.IPAddress}}{{end}}' $(docker ps -aq) | grep 172.18.0.104
/docker_yyyyy-service - 172.18.0.104

tips:

docker inspect: 獲取容器/鏡像的元數據. --format: 用模板格式化輸出.

至此, 定位到了xxxxx和yyyyy,嗯... 隔壁Py (thon)組的服務. 來, 鍋給你.
Redis崩了,我成功把鍋甩給了隔壁組

如果這篇文章對您有幫助,請幫忙點贊一下吧 ( ̄▽ ̄)"

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章