RTO 與 RPO

在災難恢復方面,目前業界公認有三個目標值得努力。一是恢復時間,企業能忍受多長時間沒有 IT,處於停業狀態;二是網絡多長時間能夠恢復;三是業務層面的恢復。整個恢復過程中,最關鍵的衡量指標有兩個:一個是 RTO,另一個是 RPO。所謂 RTO,Recovery Time Objective,它是指災難發生後,從 IT 系統當機導致業務停頓之時開始,到 IT 系統恢復至可以支持各部門運作、恢復運營之時,此兩點之間的時間段稱爲 RTO。所謂 RPO,Recovery Point Objective,是指從系統和應用數據而言,要實現能夠恢復至可以支持各部門業務運作,系統及生產數據應恢復到怎樣的更新程度。這種更新程度可以是上一週的備份數據,也可以是上一次交易的實時數據。

選擇標準

對災難恢復而言, RTO 與 RPO 哪個衡量指標更合適呢?在考慮採用哪個指標之前,IT 人首先要弄清楚一個基本概念,企業的容災系統預防的是什麼災害,是多少年一遇的,能忍受多少損失,需要算出一個大概的成本,當然不一定很精確。其次,無論企業容災系統是採用冷備、熱備、溫備、還是磁盤備份,幾分鐘恢復業務和幾天恢復業務效果是完全不一樣的。企業需要明確對恢復時間的容忍底限是多少。再從災備本身的意義來講,無論採用哪種衡量指標,最終目的是要能夠很好地檢驗災備系統的實用性能,否則就失去建立災備的意義了。而災備最核心的作用就是確保災難發生後業務能夠連續運行,交易中的數據完整保存,丟失越少越好。因此業務層面的恢復,企業要有一個底限。參考世界範圍內一系列災難恢復經驗,國家之間的差別非常大。比如在美國,政府是第一位的,警察局對數據的恢復要求特別高。而在中國,無論什麼性質,銀行始終是排在第一位的。

綜合平衡

作爲銀行,除開展自身業務之外,更多數據來自上下級銀行間的財務匯兌與結算。站在管理者的位置上,一旦災難發生,最重要的是在儘可能短的時間內排除障礙,恢復業務,保證系統做到連續運行。因此,從這個角度出發,銀行容許系統停滯的時間應當越短越好。選擇 RTO 剛好合適。但是,RTO 對成本要求太高,與回報似乎不成正比。企業資金不可能無限制地投入到一個災備系統中。對於銀行證券這樣的聯機交易事故處理非常緊密的金融機構而言,可能每一筆、每一單、每一分錢都很重要,所以都需要恢復。RPO 顯然更爲合適。許多時候進行選擇並不意味着非此即彼,這與現實婚姻中一夫一妻的限制還是有差別的。RTO 和 RPO 對銀行來講都很重要。RTO 越短、RPO 越新,銀行面臨的損失就越小,但這也意味着系統開發成本將會急劇上升。許多時候,最佳的容災解決方案卻不一定是效益最好的。反之亦是。如何去平衡這中間的關係,不僅是門學問,更像是藝術。

根據國際經驗,在選擇“你”還是“她”的時候,企業應當考慮災難發生後會在多大層面上衝擊業務,這涉及到企業形象,商業機密,信譽評級,品牌競爭力等等方面,各個企業的情況不同,要根據自己的情況選擇合適的“對象”。災難恢復的目的是業務連續進行,因此無論採用 RTO 還是 RPO,都要朝着這個核心靠攏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章