2018年十大雲宕機事故盤點:主流無一倖免!

根據IDC今年7月份發佈的《中國公有云服務市場半年度跟蹤報告》顯示,阿里雲的市場佔有率已過45%,騰訊雲達到10%。在全球市場,根據Gartner最新數據顯示,亞馬遜AWS佔全球份額的51.8%;微軟Azure位列第二位,佔比13.3%;阿里雲位列第三位,佔比4.6%;谷歌Cloud雲服務佔比3.3%;隨後是IBM,佔比1.9%。可見,這幾大主流雲供應商佔據全球絕大部分市場,一旦雲服務出現宕機,受影響的企業將不計其數。

2018年,雲計算市場不僅發展迅速,而且問題不斷。雲供應商與開源社區的矛盾不斷升級,主流雲廠商均未逃過宕機事件,更有甚者一年出現多次服務宕機,導致企業對公有云的信心持續走低。本文總結了2018年前十大雲宕機事故,歡迎各位補充經歷過的雲服務至暗時刻。

1、谷歌雲自動化失效導致宕機  1月18日

事故詳情:2018年1月18日,谷歌雲自動化機制失效,導致其us-central1和europe-west3兩大可用區中的計算引擎停運93分鐘。谷歌對此的迴應是“網絡編程失效”導致Autoscaler(自動擴展器)服務無法正常運行,該服務失效意味着新的虛擬機或剛遷移的虛擬機無法與其他可用區虛擬機聯繫。
補救措施:工程團隊手動切換到替換任務,以恢復數據持久層正常運行。
宕機時間:93分鐘
事件後續:谷歌承諾,未來如果配置數據過時,谷歌將停止虛擬機遷移,數據持久層會在長時間運行進程期間重新解析對等體(peer),以便故障發生時迅速切換到替換任務。

2、AWS宕機致部分Alexa失聲  3月2日

事故詳情:2018年3月2日凌晨,依賴AWS服務的部分Alexa開始出現失聲問題,該智能音箱的紅色指示燈不停閃爍表明服務出現中斷,Alexa也一直髮出系統內置道歉聲。隨後幾小時內,Alexa又接到了成千上萬封投訴。據瞭解,Alexa這一故障源於亞馬遜AWS的網絡服務出現問題,其他依賴AWS作爲骨幹網的應用在當天也受到了影響,包括軟件開發公司Atlassian,雲通訊公司Twilio等。
補救措施:亞馬遜AWS的在線支持團隊對此進行了修復
宕機時間:數小時(因事發凌晨,未在第一時間發酵)
事件後續:亞馬遜AWS未對此故障進行詳細說明,只透露與網絡連接有關。

3、AWS北弗吉尼亞地區數據中心出現硬件問題  5月31日

事故詳情:2018年5月31日,因北弗吉尼亞地區的數據中心出現硬件故障,AWS再次出現連接問題。在此事故中,AWS的核心EC2服務,Workspaces虛擬桌面服務以及Redshift數據倉庫服務均受到影響。
補救措施:人爲修復
宕機時長:30分鐘左右
事件後續:亞馬遜公司S3的副總裁兼總經理Mai-Lan Tomsen Bukovec近日接受採訪表示,亞馬遜從未見過數據中心崩潰。這意味着,過去的每一次事故都未曾導致整個數據中心的崩潰,AWS也在系統設計層面進行了改進以防止此類事故發生。

4、微軟Azure愛爾蘭數據中心宕機  6月17日

事故詳情:2018年6月17日至18日,因愛爾蘭數據中心的恆溫系統出現問題,微軟Azure被高溫影響導致存儲和網絡中斷。
宕機時間:5小時以上

5、阿里雲故障  6月27日

事故詳情:2018年6月27日16:21左右,阿里雲出現重大技術故障,16:50分開始陸續恢復,官方給出的故障時間爲30分鐘左右,恢復時間大概花費一小時。經過技術覆盤,阿里給出的故障原因爲工程師團隊上線自動化運維新功能時,執行了一項變更驗證操作,該操作在測試環境中未發生問題,上線後觸發未知bug。
補救措施:人工介入,定位並解決問題
宕機時間:30分鐘,恢復時間花費一小時左右
事件後續:本次事故被定義爲S1級別,即核心業務重要功能不可用,影響部分用戶,造成一定損失。阿里雲發佈官方聲明,表示“對於這次故障,沒有藉口,我們不能也不該出現這樣的失誤!我們將認真覆盤改進自動化運維技術和發佈驗證流程,敬畏每一行代碼,敬畏每一份託付。”

6、騰訊云云硬盤故障  7月20日

事故詳情:2018年8月5日,北京清博數控科技有限公司(以下簡稱“前沿數控”)在官方微博發佈了一篇題爲《騰訊雲給一家創業公司帶來的災難》的博文,文中表明,2018年7月20日,騰訊云云硬盤發生故障(騰訊雲後期給出的事故原因說明),導致該公司存放的數據全部丟失,並且不能恢復,這是該創業公司近千萬元級的平臺數據,包括經過長期推廣導流積累起來的精準註冊用戶以及內容數據。
補救措施:騰訊雲表示,監控到異常後第一時間向用戶告知了故障狀態,並立即組織文件系統專家並聯合廠商技術專家嘗試修復數據。但經過多方努力,最終仍有部分數據完整性校驗失敗。
事件後續:騰訊雲提出“賠償+補償”方案,並承諾會繼續與“前沿數控”保持溝通,幫助其進行業務恢復。

7、騰訊雲宕機  7月24日

事故詳情:2018年7月24日,用戶登錄騰訊雲時反覆出現超時、退出等情況,即便更換運營商,結果也一樣。隨後,騰訊雲發佈通知稱初步確定是運營商光纜中斷,運營商已經找到斷點,正在連線中,主要受影響的爲廣州區域部分用戶。
補救措施:運營商第一時間介入搶修
宕機時間:宕機時間不明,恢復時間花費30至40分鐘

8、亞馬遜AWS故障 Prime Day

事故詳情:Prime Day是亞馬遜在全球範圍內啓動的爲期36小時的會員促銷活動,活動剛開始,亞馬遜網站及App就同時發生嚴重宕機,不光電子商務業務受損,亞馬遜的其他產品和服務都受到了不同程度的影響。亞馬遜對此給出的解釋是AWS管理控制檯出現全球性問題。
宕機時間:故障持續了將近6小時
事件後續:AWS發言人表示,間歇性的AWS管理控制檯問題並未對亞馬遜的消費者業務產生任何有意義的影響。

9、微軟雲Azure數據中心遭雷劈宕機  9月4日

事故詳情:9月4日上午,微軟Azure美國中南區數據中心附近發生雷擊在內的惡劣天氣,影響冷卻系統的電壓,導致多個Azure服務出現連接問題,客戶難以訪問存儲在該區數據中心的資源。受影響的服務包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services等。
補救措施:9月5日上午,微軟工程師已恢復數據中心的電力和大多數網絡設備,其他服務也在陸續恢復中。
宕機時間:超過24小時

10、谷歌公有云下的Kubernetes服務(GKE)宕機  11月9日

事故詳情:11月9日,谷歌公有云上提供的Kubernetes服務(GKE)節點池建置功能出現異常,維運人員無法透過Cloud Console UI建立新節點。

補救措施:谷歌派工程團隊調查故障原因,並開始着手維修。谷歌表示,受影響的企業用戶可以先改爲使用GCP內建的gcloud command,建置新Kubernetes節點。
宕機時間:接近19小時

在過去幾年,雲供應商還發生過數起大大小小的故障,隨着越來越多的企業和政府機構將數據上雲,即便只是一個小小的宕機都可能引發很大的災難。即便是提供99.9%可靠性的阿里雲,那0.1%的宕機還是發生了,因此企業不僅要建立完善的災備保障體系,還應該對災備系統進行定期演練以防故障發生造成損失。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章