“宕機”背後:雲安全的問題有多少?

近日,雲主機租用服務提供商阿里雲突發的宕機事件又將雲安全推到風口浪尖,據瞭解,此次事件是阿里雲華北2地域可用區C部分的ECS服務器(雲服務器)等實例出現IO HANG(IO不響應)導致的。阿里雲經緊急排查處理後,業務已全部恢復。同時,阿里雲表示,將根據SLA協議(服務合同)儘快處理因此次故障受影響企業的賠償事宜。

“宕機”背後:雲安全的問題有多少?

但是比起賠償,業內人士更加關注此次宕機事件帶來的影響和事件背後折射出的問題。經過十餘年的發展,中國的雲計算市場已經初具規模,各種新技術、新應用、新場景、新架構成爲公有云/私有云平臺市場能夠保持快速、持續增長的助推器。目前越來越多的企業將其業務系統、數據部署在雲上,雲服務器一旦宕機,企業業務必然會受波及。因而安全被各企業視爲頭等要務。

理論上不存在“永不宕機”的雲

事實上,不止是阿里雲,其他雲服務提供商也都出現過宕機事件。僅2018年一年,全球主流雲計算廠商曾發生數十起宕機事故。

2018年1月18日,谷歌雲自動化失效導致宕機;

2018年3月2日,AWS宕機致部分Alexa失聲;

2018年5月31日,AWS北弗吉尼亞地區數據中心出現硬件問題;

2018年6月17日,因愛爾蘭數據中心的恆溫系統出現問題,微軟Azure愛爾蘭數據中心宕機;

2018年7月20日,騰訊云云硬盤故障;

2018年9月4日,微軟雲Azure數據中心遭雷劈宕機;

2018年11月9日,谷歌公有云下的Kubernetes服務(GKE)宕機;

不難發現,雖然宕機的原因不盡相同,但宕機卻時有發生。

據悉,雲服務產生故障的原因一般分爲兩類:一是因爲誤操作導致的問題(其實用不用雲服務都有這個問題),二是雲平臺故障導致的問題,例如DDOS***等。中國信息通信研究院雲計算與大數據研究所所長何寶宏也表示,目前發生的宕機事故約80%是因爲技術人員操作不規範或誤操作導致的,相比於“誤操作”,雲平臺故障的技術問題僅佔20%。

雲服務提供商的雲平臺可提供服務器快照、數據庫備份和日誌備份等諸多功能,這些功能爲企業帶來了便利,遠比企業自己構建類似的服務簡單好用,但是涉及到權限問題就值得思考了。使用雲平臺上的賬戶權限管理時,嚴格地避免無意或者惡意的“誤操作”很重要,因爲如果雲服務管理權限每個人都有,那麼很容易出現“誤操作”的問題,所以要嚴格控制賬戶管理的權限。

無論是傳統的環境,還是雲環境,都不能做到絕對的“持續可用”。何寶宏對此表示,理論上任何技術或者服務出現中斷都是不可避免的,僅是概率大小的問題。

雖然所有的雲服務都不是絕對安全的,沒有辦法100%保證正常的系統。但是大部分情況下,雲環境的可用性和可靠性都比傳統環境高,這主要是因爲雲平臺的運維更加專業。可見,儘管雲會發生故障,但云仍然是值得信任的。

服務可靠性、業務連續性需不斷加強

未來雲服務或將像水電煤一樣成爲基礎設施。停電1分鐘,對於一般家庭而言,也許只意味着少看一會兒電視、少吹一會兒空調,但對於企業而言,或許意味着一條生產線的癱瘓、整個生產流程的推倒重來。同理,雲服務器宕機1分鐘,對於雲服務提供商來說是一次運維故障,但對企業而言,或許意味着客戶的流失甚至破產,特別是不可逆的故障不是雲服務提供商賠償就能挽回的。

有業內專家透露,宕機的後果可以分爲兩類,一種是可恢復的,一種是不可恢復的。例如,此前騰訊雲因硬盤故障導致一家初創公司近千萬元級的平臺數據丟失,且不能恢復,讓騰訊雲元氣大傷,與之相比,阿里雲的損失就沒有那麼慘了。

可見此次事件折射出來的問題並不完全屬於雲安全範疇,而是隨着雲計算在各垂直領域的不斷***,雲服務的可靠性、業務連續性成爲下一步發展雲計算的重中之重。

可靠性和業務連續性一直是電信業非常重視的指標,而云廠商對於服務可靠性的要求還不夠。何寶宏指出,該問題並不只出現於雲廠商提供的服務中,而是新興行業發展初期常常會遇到的問題。例如,2016年國家電網公司經營區域內城市配電網和農村配電網的供電可靠率分別達到99.946%、99.782%,但隨着近年來工業互聯網的需求越來越大,對電網的依賴性越來越高,99.9999%的供電可靠率也逐漸出現。由此可見,一項服務的可靠性可以隨着人們對於該服務的依賴性而越來越高的。

未來,雲服務的可靠性和業務連續性將會隨着企業上雲以及垂直行業對雲服務的依賴程度越來越高而不斷提升。當然這樣的提升需要更多經驗的積累和時間的考驗,眼下還是應該儘量避免宕機事件的發生。

“多雲”部署或成爲新的保障

諸多宕機事件告訴我們,不論是公有云還是私有云,面對天災人禍,都不能獨善其身。爲減少業務中斷帶來的損失,雲服務廠商需要構建雲容災方案。

何寶宏指出,預防宕機發生可以從多個方面着手。

一是雲廠商技術上的完善,即增強雲服務的可靠性和業務連續性,但毋庸置疑的是無論可靠性達到幾個9都無法保證雲服務“永不宕機”。

二是企業需根據自身特點選擇雲災備和雲保險服務,儘量在經濟和人員條件可行的情況下使用這些分散風險,如果故障只出現在一個服務器集羣,如果採用異地災備的方案,就可以在最快時間切換到另一個集羣下,保持系統可用;雲保險則是企業的最後一道保障。

三是增強用雲規範意識,爲避免由於人員的誤操作或者相關人員操作不規範造成的宕機事故,相關企業和政府機構應加強技術人員的培訓和災備意識的建立,企業的IT人員日常應做到異機備份、數據容災、業務雙活、定期對災備和雙活進行演練等,儘可能避免雲故障帶來的損失。

宕機事件的發生使不少企業對雲服務的部署方式產生了質疑,於是,“多雲戰略”成爲很多企業正在考慮的方案。業內分析師也坦言,真正安全的方式需要將重要業務分別放在不同的“籃子”裏,也就是選擇多個供應商,進行“多雲”部署。“多雲”部署本身也是一種災備預案,如果自身服務非常重要,可以考慮租用多個雲服務互爲主備,或者自建機房,只是這樣成本和技術複雜度會成倍增加。

對於初創企業或中小企業而言,自建機房的運維難度很大,運維水平也遠低於大的雲服務廠商,因而故障概率更大、損失更加不可控。所以採用多雲或混合雲可能是未來最爲靠譜的方案,純公有云、純私有云都是不×××全的解決方案。

而有實力的企業應該儘可能自建防ddos服務器,將核心數據、核心業務邏輯放在自己的內網服務器上,前端模塊等可以考慮放在公有云服務器上,這樣的話可以最大限度地實現分離,保障企業的用雲安全。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章