人比設備重要 冗餘技術難抵小概率事件

作者:淡月疏影  2007-12-07
<script type="text/javascript">init_Nav();</script>
    【IT168 專稿】爲了增加可靠性,公司的網絡使用採用一些冗餘技術。兩臺核心交換機,採用了熱備冗餘的方式;每個樓層配置兩臺交換機,兩臺交換機互連,每臺交換機再分別連到核心,實現冗餘連接。
 
    沒想到,前幾天有一臺核心交換機還真的壞了。雖然這是意料之中的事,但影響還是挺大的。在事實前面,這些冗餘技術顯得如此脆弱。
 
    原爲了提用利用率,兩臺核心交換機的功能還是有所差別的,因此有以下影響:①DHCP服務只是配置在壞的那一臺核心交換機上,因此雖然網絡物理上是連通的,但實際上還是不能用了。②CISCO限制可作熱備的VLAN只有16個,因此兩臺交換機上的VLAN配置還是有所不同的,也影響系統的正常使用。③爲了減少故障環節,把與集團的連接直接連到核心交換機上,偏偏這臺核心交換機壞了,因此集團的網絡也不能訪問了。
 
    更脆弱的是,有幾個樓層也未達到的冗餘效果:①有一個樓層兩臺交換機互連的端口,其中一個端口的GBIC卡壞了,因此造成其中一臺到核心的兩條通道全不通了。以前以爲兩條通道都壞是件小概率的事件,現在就恰恰遇到了。②有一個樓層的臺交換機的互連本來就沒配置好,平時發現不了,這時就造成大問題了。
 
    經過緊張的調整,網絡已全部恢復正常。但這次事件使我們得出兩個經驗教訓:①冗餘是必要的,但是由於先天設計的、技術上的、性價比等原因,不可能做到完全可靠。還是需要平時做好應急預案,提高技術水平,才能在危難時刻顯身手。人的應變能力有時比設備的可靠性更重要,因此覺得自己還是不會下崗的。
 
    ②不能因爲有冗餘技術就放鬆管理,平時還是應該多檢查。因此我們根據這些問題和教訓,對原來的方案進行了調整,原來的雙核心均衡改成主備方式,即分爲主核心交換機、備核心交換機、輔助核心交換機。
1
©版權所有。未經許可,不得轉載。
[責任編輯:郝靜]
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章