第一次遭遇雲服務器完全崩潰

第一次遭遇雲服務器完全崩潰:CPU 突然 100%、控制檯無法重啓、控制檯無法強制關機。到目前爲止,騰訊雲的工程師和我本人都沒有找到具體原因。

本文所示圖片使用的是 github 倉庫圖片,網速過慢的朋友請移步原文地址或者來我的小站godbmw.com

1. 案件陳述

  • 案發地點:騰訊學生雲 ubuntu 16.04,寬帶 1M
  • 案發時間:2018-10-09 13:40
  • 案件陳述:

    1. 2018-10-09 12:37 左右,CPU 使用率突增到 100%,內網出入寬帶、流量包、內存使用量均無異常。
    2. 2018-10-09 13:28 正式死機,控制檯無法強制重啓(清除緩存、更換瀏覽器依然無法重啓)、無法強制關機。
    3. 開始提交工單,周折很久,討論無果。遂沒有消息。
    4. 2018-10-09 14:00 重回控制檯,再次強制重啓成功!
    5. 重新上線了自己的項目和公司的一些腳本,慶幸沒造成損失。
    6. 檢查日誌,和騰訊雲工單的工程師討論。雙方確認日誌沒有問題,無法排查出錯誤

2. 災難現場

首先是,個人網站無法進入,如下圖:

首先是,無法強制重啓和強制關機,如下圖所示,請注意截圖上方的報錯提示信息

騰訊雲的控制檯已經說明了,強制關機是強制切斷電源的物理操作!這都沒法進行,我本人表示很迷。

在提交的工單的過程中,有大概 20 分鐘的時間,是沒有任何回覆的。然後大概到了 2018-10-09 14:00,多次嘗試後,終於可以強制關機和重啓了。有圖爲證:

以上情況,不得不讓我懷疑,是工程師們手動去關的服務器電源:)

3. 如何補救?

經過這次服務器事件才體會到:雲服務的穩定性是多麼重要! 這次事件騰訊雲的工程師也沒語焉不詳,我只能猜測是:服務器的物理問題。

所以,我這次果斷準備了兩個服務器,開始做“負載均衡”(還要修改備案)。除此之外,日常備份數據也是非常重要。

最後,還是希望雲服務商的服務儘量保持穩定,至少在服務器崩潰的情況下,可以找出崩潰原因並且修復。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章