黑科技揭祕:百種異常隨機注入,專有云爲何穩如泰山

摘要: 關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁盤被寫滿?爲什麼這麼巧,兩個小概率的問題偏偏一起發生,造成保護失效?爲什麼我們做了測試演練,然而真正發生問題依然踩坑?”2018杭州雲棲大會主論壇演示現場,阿里雲專有云事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。

關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁盤被寫滿?爲什麼這麼巧,兩個小概率的問題偏偏一起發生,造成保護失效?爲什麼我們做了測試演練,然而真正發生問題依然踩坑?”2018杭州雲棲大會主論壇演示現場,阿里雲專有云事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。

百種異常現場隨機注入破壞系統

黑科技揭祕:百種異常隨機注入,專有云爲何穩如泰山

繼去年跑了分、斷了電,在9月19日下午的杭州雲棲大會技術主論壇現場,專有云現場演示穩定性升級版,在現場搭建的專有云“企業號”數據中心繫統上隨機注入異常搞破壞。該數據中心由8大品牌服務器搭建,模擬了客戶真實的複雜生產環境,同時現場直播應用便搭載在該數據中心的系統上,在注入異常後將直觀的通過觀察直播是否卡頓來判斷專有云系統是否真的穩定。

黑科技揭祕:百種異常隨機注入,專有云爲何穩如泰山

現場馬勁讓助手向觀衆席中扔出兩隻猴子玩偶,搶到的觀衆可以在現場呈現的1-100個異常中隨機選取一個異常注入,兩位觀衆分別選擇了19號和66號,分別代表的是“ECS雲產品網絡傳輸包亂序比例陡增”,模擬ECS網絡不穩定,網絡急速惡化,傳輸包亂序陡增的場景,以及“SLB雲產品網絡傳輸時延陡增”,模擬SLB所在網絡不穩定,傳輸出現嚴重惡化,時延陡增的場景。在分別注入這兩個異常場景後,直播視頻仍然保持順暢毫無卡頓。這是因爲專有云系統日常就是在通過注入這類異常收集反饋進行調整,從而不斷打磨系統構建出“專有云免疫系統”。

似乎是現場觀衆隨機挑選的異常“破壞力”不足,馬勁一狠心,演示了極端環境下的超級異常——核心ECS集羣局部網絡異常且另一臺ECS計算資源飽和。“這模擬了業務高峯期服務器已經超高負載時的網絡故障,這類情況極易引發系統雪崩,一旦雪崩恢復時間很長。”馬勁解釋道。演示現場阿里雲負載均衡的快速隔離及彈性伸縮服務智能資源分配及時發揮了作用,現場應用卻快速恢復正常,觀衆席響起熱烈的掌聲。

黑科技揭祕:百種異常隨機注入,專有云爲何穩如泰山

打磨產品穩定性,阿里雲沒有好辦法只有“笨辦法”

阿里雲專有云承載着衆多企業的關鍵業務,深知肩責任之重,也深知穩定性對客戶業務意味着什麼,因此打磨穩定性是專有云不渝的追求。然而,過去大部分系統都搭建在DIY系統上,不具備全系統演練的條件,而今天在阿里雲這個“雲計算機”上,可以在準生產環境下進行全方位立體化的演練。

混沌工程是專有云針對理論科學搭建系統同時利用實踐科學不斷打磨系統的最佳組合。阿里雲異常庫中擁有高達12600種的異常場景,一年365天都在全方位立體化的不斷注入打磨系統,以提前幫助客戶排除系統中80%的故障。當別人還困擾於硬件層級的異常發生該如何處理時,阿里雲專有云已經在用更深層級的組合異常打磨系統。這一切的投入和執着錘鍊穩定性都只爲持續給客戶提供更穩定更可靠的產品。

現實往往不按照故事的劇本走,阿里雲沒有“好辦法”只有笨辦法,那就是引入‘混沌工程’理念,在仿真的生產環境中做千倍高頻的異常注入,對不符合預期的系統反饋不斷優化,從而持續打磨穩定性,助力客戶業務穩定性提升。

瞭解更多產品降價信息請戳鏈接
https://yunqi.aliyun.com/2018/hangzhou/product
瞭解更多阿里雲產品請戳鏈接
https://www.aliyun.com/product/list?utm_code=p_2018090501
專屬小遊戲,《我和老闆,那些不可描述的需求》等你來~
https://yq.aliyun.com/articles/641567

原文鏈接

本文爲雲棲社區原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章