雙十一背後數據中心運維保障那些事兒

“雙十一”即指每年的11月11日,由於日期特殊,因此又被稱爲光棍節。而大型的電子網站一般會利用這一天來進行一些大規模的打折促銷活動,以提高銷售額度。它們選擇“雙十一”促銷也是爲了錯開線下促銷的週期。國慶、聖誕、元旦都是實體店促銷的時間節點,於是從國慶假期後至聖誕節前實體店會形成促銷的真空期,但是爲了完成銷售任務,商家必須提前在11月發力。從2009年11月11日,淘寶商城舉辦了第一屆雙十一促銷到現在,已經舉辦了三屆,在2012年的“雙十一”購物狂歡節總銷售額191億,今年的 “雙十一”購物狂歡節預計銷售額會超過200億。

一個購物網站要在一天處理完成超過1億筆的交易,淘寶是如何做到的呢?其實,在網站簡單的買賣交易背後,凝結了數千人默默無聞的運維保障工作。除了要完成交易,還有更多的時間用戶是在瀏覽網站的商品,如果一個網頁點擊超過5秒纔打開鏈接,這也將嚴重影響用戶的體驗,因此在確保買賣交易可以完成的同時,還要在如此大的訪問量的情況下,保證用戶的購物體驗,這不得不說是一項艱鉅的任務。早在2012年,淘寶“雙十一”購物狂歡節的一分鐘內千萬級別訪問量涌入,導致購物車和支付寶無法訪問。大家知道這時千萬級別的ID不僅僅是每個用戶的數據,同時包括所購買產品的數據、包括銀行系統的高併發訪問。瞬間海量數據的I/O,如此高的併發用戶訪問、檢索以及支付導致硬件工作負荷加大,自然就會形成自我保護性關閉或崩潰,從而使網站癱瘓。

“雙十一”期間淘寶網站的訪問量是平時的幾倍、甚至幾十倍,原有的數據中心性能是無法滿足的,而這種促銷就只有一天,淘寶又不可能大肆的擴大數據中心規模而去保障這一天,這樣會造成大部分時間數據中心處於資源浪費狀態,因此只能從別的方面考慮優化。從訪問量上來講,也就是在“雙十一”剛開始的幾分鐘流量最大,流量瞬間變大,後續的一天的時間流量基本都比較穩定,一天過後流量大大下降。面對瞬間巨量的訪問,數據中心會進行分流,淘寶的數據中心遍佈全國各地,大量的數據訪問分多次、多地點進行,可以實現多站點並行作業,保證高併發的數據訪問。經過3年的“雙十一”活動,淘寶已經對突發的訪問量能夠做好預估,根據現有的數據中心處理性能,適當地增加一些臨時設備,啓用備用系統,從而確保淘寶順利平穩過渡“雙十一”。

在淘寶有一個應用運維團隊,即PE團隊。PE團隊負責淘寶網在線交易、廣告系統、數據平臺等應用運維繫統技術部門,是爲淘寶帶來高速增長核心運維團隊。“雙十一”購物節也給PE團隊帶來了巨大壓力。基本上爲了應對“雙十一”購物節,PE團隊提早就做足了準備工作。比如包括:檢查全國各地數據中心運行負荷情況,以便在高峯流量到來時靈活分散訪問流量;增加備件,做好配置,大量的設備硬件出現故障不可避免,在關鍵業務設備做好備件,一旦出現故障及時更換,將故障時間控制在幾分鐘內;協調好各種設備的供應商廠家工程師駐場待命,以便出現故障時,和PE團隊共同處理,減少中間的溝通環節,縮短故障處理時間;啓動這種應急預案,對可能發生的突發情況進行預判,制定響應的方案;在“雙十一”之前進行故障模擬演練,驗證解決方案是否可行。在做好的充分準備後迎接“雙十一”的到來。

在11·11購物節的24小時裏,PE團隊的人員會時刻關注着淘寶網站的運行情況。主要監控三個方面的狀況:

一、是監控業務層面比如說本來每秒創建是2000筆的,現在突然一下降成500筆了,這就可能有問題了,再有可能訂單生成,有丟單等等,這些業務層面的問題會大大影響銷售額,這樣PE團隊就會立即召集業務部門和軟件開發系統的人員公共分析問題原因。

二、是應用系統監控。檢查JVM跑的是否正常,是不是有頻繁的垃圾回收,反饋時間是否在200MS以內,一旦反饋時間超過200MS,則訪問網站的速度就會下降,如果超過500MS,則訪問網站的體驗就會很差了。這時PE團隊要系統軟件開發人員共同分析問題,找過故障點。

三、是基礎設施保障。這種基礎的包括網絡、服務器、存儲設備等比如說我們的路由器是不是通的,我們的交換是不是有問題啊,DNS服務是不是有問題啊,等等。

“雙十一”購物節過後,PE團隊要對數據中心出現的問題進行總結,杜絕類似問題再次發生,這個節日是對淘寶數據中心的一次巨大考驗,很多問題都會在這樣的突發流量下暴漏出來,所以對於PE團隊也是難得的一次學習機會。淘寶的數據中心出口帶寬已經超過兩個T,就是在峯值的時候,每秒出去兩個T的數據。由此可見,淘寶數據中心的處理能力是超強的,但簡單的提升網絡訪問帶寬還遠遠不夠,需要的是淘寶數據中心整體的處理性能的提升。經過“雙十一”購物節的洗禮,PE團隊會找到目前數據中心薄弱的地方,然後再不斷改進。

在淘寶,要求數據中心全年斷網時間不能超過2小時,故障等級分爲四級:P1~P4。P1是最嚴重的故障,P4最輕微。如果頻繁出現P1故障,那麼PE團隊人員的收入都會受到損失。因此,PE團隊時刻都保持瞭如履薄冰的心態,應對每一次突發問題。其實在任何一個數據中心都一樣,我們在享受數據中心帶來的生活、工作便利的同時,在其背後是有無數的技術工作者提供運維保障,正是這些默默無聞的運維人員辛苦的工作才構築了我們今天美好的生活。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章