信息系統的無單點故障設計

 今天社會的各行各業對信息系統的依賴與日俱增,特別是在金融等行業信息系統已經真正到須臾不可離異的地步。對於這樣的大型企業,信息系統的重要性決定了對其可靠性、安全性的要求達到了前所未有的高度。作爲提高可靠性、安全性的一個重要措施,投資巨大的災備中心建設已經不再是滿足某一企業的自身安全要求,而是成爲行業的硬性規定。然而,影響信息系統可靠性、安全性的因素涉及的方面、因素非常多,並不是只要建立了災備中心就可以一勞永逸地徹底解決問題。本文希望從多個角度探討通過減少單點故障提高信息系統的安全性。

 今天信息系統的複雜性決定了完成一個看似簡單的業務操作都需要一個長長的信息系統鏈條的各個環節提供保障。在這個鏈條中的任何一個環節出現問題,都將導致業務操作的失敗。金融行業信息系統一般都是由數據中心、廣域網、局域網、應用終端爲基礎,在其上建立的應用系統,以及維護基礎平臺和應用平臺的組織構成。因此,無單點故障就在保證上述所有的環節都要實現無單點故障。

 本文討論的無單點故障並不包括個人應用或幾人以下的小團隊的無單點故障問題。實現無單點故障需要巨大的成本投入,任何可靠性方面的提高都意味着投入的增加,因此無單點故障設計只是在考慮可能對全局或相對較大的區域造成影響的信息系統需要進行無單點故障設計。

 一、數據中心的無單點故障設計

1、  服務器的無單點故障設計

 現今稍正規的數據中心服務器一般都會採用雙機或集羣設計,以保證當一臺服務器出現故障時,重要的業務不會中斷。但隨着計算機應用深入到企業的各個方面,企業中都會有大量的系統在各個領域中運行,需要數量龐大的服務器支撐這些應用。相當一部分企業很難保證所有的服務器都能做到雙機或者集羣。而隨着信息系統在企業中應用集成度的不斷提高,各應用系統間的關係日益緊密,一個看似不重要的系統可能與核心系統密切相關,一般系統的故障可能直接導致關鍵系統無法正常運行。因此,在服務器的配置上,不但要考慮關鍵系統的無單點故障,對大量的非關鍵應用系統也同樣需要考慮雙機或集羣,實現無單點故障設計,以全面保證企業的應用不會由於非核心繫統的故障對核心系統造成影響。

 對於非核心業務的應用,並不一定都必須做到雙機或集羣,可以利用現已十分成熟的虛擬化技術,將一臺服務器劃分爲多臺,將大量的非關鍵應用系統交叉部署在不同的物理服務器上,彼此互備。根據各系統的重要性和相互的關聯性,並考慮總體經濟性,非核心服務器並不一定都必須是熱備,有些服務器也可以是冷備,只要能在較短的時間內能及時啓動,滿足應用需求即可。

2、  磁盤陣列的無單點故障設計

 磁盤陣列本身就是一個相對高可靠性的設備,單個磁盤的故障並不會影響其上存儲數據的安全性。先進的磁盤陣列可以通過配置雙控制器實現控制器的無單點故障,但背板如果出現故障也將使整個磁盤陣列失效,儘管這個概率很低,風險也還是存在的。因此,如果條件允許,磁盤陣列也應該採用雙機互備模式。

3、  數據中心網絡系統的無單點故障設計

 一般的數據中心都已經採用雙核心交換機模式實現無單點故障。但主交換機之外,防火牆、路由器是否存在雙機互備,交換機與非核心服務器是否實現了雙線接入都對整個系統的可靠性有重要影響。因此,在網絡接入、防火牆、路由器、DMZ區設計等多個方面都需要考慮無單點故障設計。

4、  災備系統

 災備系統是確保系統可行性的最後一道屏障。但由於災備系統投入使用的概率很低,相當一部分災備系統並未達到理想的隨時可以投入使用的狀態。災備中心除了服務器、網絡平臺要能承擔得起主數據中心的關鍵任務外,不僅要實現與主數據中心各應用系統數據的一致性,應用程序更新版本的一致性,更重要的是災備中心也需要建立與主數據中心同樣能與各機構相連的網絡,而不能只與主數據中心有順暢的網絡,因爲一旦發生需要啓用災備中心的故障,與主數據中心的網絡也會中斷。

 爲保證災備系統能夠在主數據中心出現災難性故障時正常啓用,一般的點對點方式的SDH專線很難做到各節點在災備中心啓動後,把應用自動切換到災備中心。就是各節點都向兩個數據中心鋪設了專線,對於一個有大量節點的企業而言,切換也不是一個簡單的問題。建立MPLS網絡是解決快速切換的最佳方案,它可以在主數據中心出現故障時,自動切換到災備中心,真正實現業務的不間斷運行。

 二、網絡系統的無單點故障設計

1、  廣域網的無單點故障設計

 今天建立廣域網已經不存在任何技術障礙,可以通過SDH專線實現點對點互聯,也可以建立MPLS VPN專網,還可以通過互連網VPN技術建立機構內部專網。儘管今天專線在技術上已經具備了相對較高的可靠性,但施工造成的斷網是最常見的專線故障。因此,每個信息節點通過電信、聯通兩家公司分別建立專線是提高可靠性的有效方式。還可以通過SDH專線與互聯網VPN互備實現無單點故障。

 爲了防止兩條專線被施工時同時挖斷,條件允許時,應儘可能採用相隔較遠的不同通道匯聚到機房。

2、  節點內無單點故障設計

 所謂節點就是一個與廣域網相聯的內部局域網系統。由於這些節點可能是幾十人,也可能是由成百,甚至上千人的團隊組成,還有些節點擔負着承上啓下的信息傳輸作用中,因此,爲了將故障影響控制在最小範圍內,節點內也應考慮無單點故障設計。

 節點實現無單點故障設計的要點一是要實現雙線,或三線通過雙路由器、雙網關接入,配備兩個三層交換機,即可實現節點的無單點故障設計,把單一設備或線路故障造成的影響降到最低。

 三、組織架構的無單點故障設計

 無單點故障設計不但要考慮硬件和網絡,在組織架構上也必須做充分的考慮。現今企業中的計算機平臺日益複雜,應用系統五花八門,需要一個強大的技術團隊做好維護工作。一旦維護出現問題,必將對業務經營產生重大影響。

 在組織架構上要做到無單點故障,就要求不管軟件、硬件,每一個系統的維護都應有至少兩個,或兩組人員負責。許多企業通過服務外包的方式,將信息系統的維護交由專業的公司來做,但對於大型的企業自身也應有一批專業技術人員能夠承擔起各軟硬件系統最基本的維護工作,只有這樣才能保證一旦出現意外情況時,不會由於維護人員,或團隊出現問題,造成系統的癱瘓。

 實現信息系統全部各關鍵環節的無單點故障需要巨大的資金投入,各企業必須根據自身的實力、信息系統在企業的重要性決定在哪些環節需要加強,哪些環節可以暫緩,在安全投入和獲得的收益之間找到一個平衡點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章