Windows Server 2008 故障轉移羣集簡介

 

 

自從在 Windows NT 4.0 Enterprise Edition 中首次引入羣集以來,用戶就一直在抱怨它太難於設置,維護則更是難上加難。管理羣集
要求管理員不僅要了解羣集本身,還需要精通存儲技術以及羣集服務與各種存儲解決方案交互的方式。許多組織都難以獲取用於啓動和運行高可用性解決方案以及之後對其進行維護所需的所有技能。
多年來羣集一直在不斷改進,但直到 Microsoft 開始研究 Windows Server® 2008 時,仍有許多地方有待改進。明確這一點後,團隊以簡單爲主要目標開始着手重新設計羣集。在 Windows Server 2008 中,Microsoft® 羣集服務 (MSCS) 得到了完全的改觀,並且現在改稱爲“故障轉移羣集”。
這並不是說簡單是新的“故障轉移羣集”帶來的唯一改進。這些年來,由於許多組織都提供了有關他們希望在羣集解決方案中看到哪些功能的有價值反饋,因此 Microsoft 積累了大量經驗教訓。新的“故障轉移羣集”功能可解決用戶報告的許多首要問題,並且還加入了一些使其更具吸引力的激動人心的新功能。因此在本文中,我將向您介紹 Windows Server 2008 故障轉移羣集中包含的一些非常酷的新功能。


 

新的管理界面
安裝“故障轉移羣集”之後,可在“管理工具”中或通過運行 Cluadmin.msc 訪問“故障轉移羣集管理”界面。“故障轉移羣集管理”管理單元(類似於 Windows Server 2008 中的其他管理界面)是一個 Microsoft 管理控制檯 (MMC) 3.0。對於羣集老手來說,首次打開“故障轉移羣集管理”管理單元的感覺就像來到國外卻沒有帶地圖一樣。
新界面分爲三個不同的窗格,如圖 1 所示。左側窗格列出了組織中的所有 Windows Server 2008 故障轉移羣集。中間的窗格提供了有關在左側窗格中選擇的羣集配置部分的詳細信息,而右側窗格顯示可執行的操作。
圖 1“故障轉移羣集管理”管理單元(單擊此圖像可查看大圖)
例如,在左側窗格中選擇 Storage。中間的窗格將隨後顯示羣集中提供了哪些存儲以及哪些存儲(如果有)當前可用的詳細信息。如圖 1 所示,該羣集包含支持見證磁盤的一塊存儲區、已爲 File Server 置備的存儲以及一些可用存儲。右側窗格列出了相關的操作,如添加更多存儲。請注意,“故障轉移羣集管理”管理單元不能用於管理之前版本的“Microsoft 羣集服務”。


 

改進了配置過程
配置“故障轉移羣集”變得非常簡單。許多配置、重新配置和維護羣集的操作都有嚮導。有了這些嚮導的幫助,管理員不必再擔心資源是否已配置正確或者它們是否會以正確的順序聯機。
圖 2 顯示了“高可用性向導”。在該特定示例中配置了一個 File Server。左側顯示了嚮導已指引管理員完成的步驟列表。此過程一旦完成,就會顯示摘要頁面並可查看報告。
圖 2 高可用性向導(單擊此圖像可查看大圖)


 

嵌入了驗證過程
在之前版本的 Windows Server 中,要成爲受支持的羣集解決方案,必須在“Windows Server 目錄”中將硬件配置列爲“羣集解決方案”。它包括在“地理位置分散型”類別下單獨列出的多站點羣集。要列在該目錄中,硬件供應商必須運行一組 Windows 硬件質量實驗室 (WHQL) 測試並將結果提交給 Microsoft。這對於供應商來說成本很高,並且難以維護“Windows Server 目錄”數據庫。
在 Windows Server 2008 中,“故障轉移羣集”包含一個內置的驗證過程。該過程由分爲四個大類別的一系列測試組成,如圖 3 所示。
圖 3 故障轉移羣集驗證測試類別(單擊此圖像可查看大圖)
您可以看到 Network 類別已展開以顯示運行的測試;每個類別都包含一系列測試。Storage 類別也許是四個類別中最關鍵的一個類別,它包括用於確保存儲解決方案符合 Windows Server 2008 故障轉移羣集提出的新要求的測試。
具體地說,硬件供應商現在必須使用基於 Microsoft Storport 驅動程序的驅動程序,並且它們必須支持 SCSI-3 持久保留。此外,在使用多路徑軟件“設備專用模塊”時,必須遵循“Microsoft 多路徑輸入\輸出”標準。
由於併入了驗證過程,支持模型發生了更改。所有硬件必須具備 Windows Server 2008 徽標,並且必須通過所有的驗證測試。唯一例外的是包含兩個單獨且完全不同的儲存櫃(每個站點一個)的多站點羣集,以及並未使用任何共享存儲的 Exchange Server 2007 羣集連續複製實現。


 

新的仲裁模型
Windows Server 2008 故障轉移羣集中的仲裁模型也發生了更改。在較老的系統中,當管理員聽到“仲裁”這個詞時,他可能想到的是包含羣集配置和一些複製文件的某個共享磁盤。它是羣集中的一個單點故障。如果仲裁磁盤出現故障,羣集服務將終止並失去高可用性。
Windows Server 2003 服務器羣集提供了另一種仲裁類型,即“多數節點集”仲裁。此類仲裁類型通常是在多站點羣集中實現,並且不需要共享存儲。“多數節點集”仲裁由駐留在每個羣集節點上的系統驅動器上的文件共享組成。通過服務器消息塊 (SMB) 連接來連接到該仲裁類型。同樣,爲使羣集能正常運行,必須有大多數節點的參與。
引入 Exchange Server 2007 羣集連續複製 (CCR) 之後,文件共享見證 (FSW) 功能也添加到了 Windows Server 2003 服務器羣集中。它允許單個 Exchange 2007 CCR 羣集節點(或任意多站點羣集)繼續提供服務,只要能夠實現到大多數 FSW 的連接即可。
在 Windows Server 2008 故障轉移羣集中,仲裁的概念現在才真正意味着達成共識。現在實現仲裁(或達成共識)的方式是擁有足夠的投票才能開始使用羣集。可通過多種方法獲取足夠的投票,具體取決於仲裁配置。在 Windows Server 2008 故障轉移羣集中共有四種仲裁模式,如圖 4 所示。在列出的四種模式中,只有前兩種(“多數節點”和“節點和磁盤多數”)可在創建羣集過程中自動選擇。應使用以下邏輯:
  • 如果在羣集中配置的節點數目爲奇數,則選擇“多數節點”模式。
  • 如果在羣集中配置的節點數目爲偶數且共享存儲已連接並可訪問,則選擇“節點和磁盤多數”。
圖 4 配置羣集仲裁嚮導中的仲裁模式(單擊此圖像可查看大圖)
要從可用存儲選擇一個見證磁盤,可選擇大小至少 500 MB 且配置了 NTFS 分區的首個磁盤。其餘仲裁模式僅可通過運行“配置羣集仲裁嚮導”來手動選擇。“節點和文件共享多數”選項通常用在多站點羣集配置或 Exchange 2007 CCR 羣集中。最後一個選項“非多數:僅磁盤”模式等同於傳統羣集中的共享仲裁模式。它是一個單點故障,通常不應使用此選項。
在羣集中僅有兩種見證資源(物理磁盤和文件共享)經過配置後能幫助達成共識。
見證磁盤是羣集服務可將其聯機的一塊存儲區。該磁盤與羣集“網絡名稱”及相關 IP 地址資源一同位於“羣集核心資源組”中。配置了見證磁盤後,該磁盤上將出現一個 Cluster 文件夾並放置一個完整的羣集配置副本(羣集配置單元或副本)。
FSW 是一個網絡共享,在理想情況下位於不屬於羣集的網絡服務器上。爲 FSW 建立 SMB 連接,由 FSW 維護見證日誌文件(它包含了羣集配置的版本信息)的副本。
一個羣集中僅可配置一種見證資源。在羣集實現仲裁時需要該資源提供一張額外的投票。換句話說,如果羣集僅差一張選票(即一個節點)即可達成共識,那見證資源將聯機以便實現仲裁。如果羣集還差多張選票纔可實現仲裁,則見證資源不會聯機,且羣集將繼續保持休眠狀態並等候其他羣集結點的加入。


 

增強了安全功能
故障轉移羣集包含多個新的安全增強功能。其中最重要的也許是不再需要羣集服務帳戶 (CSA)。在之前版本的 Microsoft 羣集服務中,在配置過程中需要用到域用戶帳戶。該帳戶的目的是用於啓動羣集服務,因此需將它添加到每個羣集節點上的本地管理員組中,並且向其提供必要的本地用戶權限以便羣集服務能正常運行。作爲域用戶帳戶,CSA 需要遵守許多可應用到羣集節點的域級別策略。這些策略可能會導致羣集服務失敗,對高可用性產生負面影響。
現在,羣集服務是以一個本地系統帳戶的名義運行,該帳戶對本地羣集節點具備一組特定權限,能夠正常運行。羣集的安全上下文已轉換成“羣集名稱對象”(CNO),該對象是首次創建羣集時在 Active Directory® 的“計算機”容器中默認創建的計算機對象。一旦成功創建羣集且 Active Directory 中存在 CNO,就不再需要用於安裝和配置羣集的用戶帳戶。
在 Active Directory 的“計算機”容器中創建的其他計算機對象與“故障轉移羣集”相關聯。這些對象稱爲“虛擬計算機對象”(VCO),等同於在羣集中作爲客戶端訪問點 (CAP) 的一部分創建的羣集“網絡名稱”資源。CNO 負責創建羣集中的所有 VCO,它會被添加到 Active Directory 中對象的系統訪問控制列表 (SACL) 中(請參閱圖 5)。
圖 5 Active Directory 中 VCO 的安全性(單擊此圖像可查看大圖)
CNO 還負責同步它創建的所有 VCO 的域密碼。將根據配置的密碼輪換域策略完成此過程。此外,由於 CNO 負責創建與羣集中的 VCO 相關聯的所有計算機對象,因此 CNO(計算機帳戶)必須具有域級別權限以便能夠在創建 VCO 的容器(默認情況下爲“計算機”容器)中創建計算機對象。
另一項更改是 Kerberos 現在已成爲默認的身份驗證方法。由於 Active Directory 中存在計算機帳戶,因而使得此項增強的安全功能成爲可能。但是,如果某個應用程序雖然無法使用 Kerberos 來執行身份驗證卻需要訪問羣集資源,則羣集可以使用 NT LAN Manager (NTLM) 身份驗證。
直接處理羣集過程的羣集節點間的通信也更加安全。所有羣集內部的通信都會默認進行簽名。可通過使用 cluster.exe 通用語言接口 (CLI) 來更改此羣集屬性,這樣可加密節點之間的所有通信以提供更高級別的安全性。


 

擴展了網絡功能
“故障轉移羣集”中的新網絡功能使得高可用性和災難恢復解決方案的設計更加靈活。同時,這些網絡增強功能在羣集中的節點間提供了更加可靠的連接。
在單個網絡中找到羣集節點可能是客戶最迫切需要的功能。現在已實現這項功能。羣集網絡驅動程序已徹底重新編寫,因此只要每個節點都連接至少兩個分別路由的單獨網絡,它就可以在羣集中的節點間提供高度可靠且容錯的通信。
羣集網絡驅動程序根據羣集啓動過程中提供的連接信息構造自己的內部路由表。這包括本地連接信息以及在羣集配置數據庫(羣集註冊配置單元)中提供的信息。
羣集驗證過程的一項內容是網絡連接發現過程。在不同路由網絡中找到羣集節點的功能減輕了多站點羣集的網絡需求。因而使得組織部署它們時更加輕鬆且成本更低。它還使在“故障轉移羣集”中使用 iSCSI 存儲成爲更具吸引力的存儲解決方案。
羣集節點還可通過 DHCP(動態主機配置協議)獲取 IP 地址信息。如果網絡管理員允許其環境中的服務器使用動態地址,則此功能可以減輕他們的負擔。
羣集節點網絡接口的配置決定了哪些網絡使用靜態或動態 IP 地址。儘管羣集中的 IP 地址資源是從 DHCP 服務器獲得的,也可以在“故障轉移羣集管理”管理單元中將其更改爲靜態 IP 地址。
在過去,所有的羣集通信都使用用戶數據報協議 (UDP) 廣播,或者有時使用多播。現在已停止使用多播功能,且羣集通信轉爲使用 UDP 單播。(端口 3343 仍是 Microsoft 羣集使用的公共端口。)許多網絡管理員對於不再使用廣播都感到非常高興。但是,羣集中真正的回報在於羣集服務內部的新消息傳遞過程。(不過,該內容超出了本文的介紹範圍。)即使將 UDP 用作傳輸機制,羣集內部的通信現在也是更加可靠的 TCP 通信。


 

增強了與存儲交互時的可靠性
“故障轉移羣集”與存儲交互的方式發生了翻天覆地的變化。羣集磁盤驅動程序 (clusdisk.sys) 已徹底重新編寫,現在它纔是真正的即插即用 (PnP) 驅動程序。而且它與存儲交互的方式也已發生改變。
在 Windows Server 2003 中,羣集磁盤驅動程序位於一個直接存儲路徑中。但在 Windows Server 2008 中,羣集磁盤驅動程序需要與分區管理器 (partmgr.sys) 驅動程序進行通信才能與存儲實現交互。圖 6 中展示了這兩種方法。
圖 6 存儲堆棧在 Windows Server 2008 中的變化(單擊此圖像可查看大圖)
分區管理器主要負責保護羣集磁盤資源。首次映射到羣集節點時,共享存儲總線上的所有磁盤都會自動處於脫機狀態。因此,即使是在創建羣集之前,也可將存儲同時映射到羣集中的所有節點。不再需要一次一個地引導節點,在一個節點上準備磁盤然後關閉節點,再引導另一節點,檢驗磁盤配置等等。
但仍然需要執行存儲測試,該測試是羣集驗證過程的一個部分並且需要初始化磁盤。可在執行驗證過程之前在羣集的一個節點上完成該操作。一旦存儲被添加到羣集,磁盤將在“磁盤管理”界面中顯示“保留”狀態,並且會一直處於受保護狀態。
另一項更改與 SCSI 命令有關。在 Windows Server 2003 中,SCSI-2 Reserve\Release 命令與寫入磁盤自身扇區中的羣集磁盤驅動程序搭配使用。在 Windows Server 2008 中,必需使用 SCSI-3 PR (Persistent Reservation) 命令。羣集節點必須先註冊然後才能保留存儲,並且羣集節點需定期使用“註冊保護協議”來保護其保留。
驗證過程中的其中一項存儲測試將驗證此功能。如果某個存儲解決方案並不支持 SCSI-3 (PR) 命令,則“故障轉移羣集”也將不支持它。
在連接到存儲時,許多組織使用多路徑軟件來實現冗餘。這種方法不但受到支持,甚至還推薦做爲最佳實踐。但是,必須使用“Microsoft 多路徑輸入\輸出”標準來重新編寫第三方多路徑軟件解決方案(即設備專用模塊),以便得到“故障轉移羣集”的支持。從而確保所有的 SCSI-3 PR 命令都同時沿所有路徑發送到存儲,無論路徑是否處於活動狀態。驗證過程也會確認此功能。
其他存儲改進包括有所改進的檢查磁盤 (chkdsk.exe) 過程、之前“羣集服務器恢復實用程序”中的內置磁盤修復功能以及自修復磁盤。在“故障轉移羣集”中,確定羣集磁盤資源時將同時用到磁盤簽名和 LUN ID。如果任意一項發生更改,羣集配置都會更新。正是由於物理磁盤資源上的屬性更改提供了更好的高可用性,因而減少了錯誤。


 

內置恢復過程
之前提到的磁盤修復顯然是一項內置恢復功能。還有一個是 Active Directory 修復功能。如果刪除了代表 CNO 的計算機對象,您將無法再創建與羣集 CAP 相關聯的計算機對象。但是,您會遇到的第一個問題可能是高度可用的應用程序或用戶由於無法獲得安全令牌而無法訪問羣集外部的資源。
從已刪除的 CNO 恢復包括以下兩個步驟。首先,必須讓域管理員從 Active Directory 的 DeletedObjects 容器恢復已刪除的計算機對象。然後,在還原並重新啓用該對象之後,執行“故障轉移羣集管理”管理單元中的“修復 Active Directory 對象”過程。
在 Windows Server 2003 服務器羣集中,位於 %systemroot%\cluster 子目錄中的羣集配置文件可能會損壞因而必須進行替換。在“故障轉移羣集”中,自修復功能可幫助解決這一問題。如果羣集服務在某個節點上啓動且配置數據庫發生損壞,將使用 HKLM\System\CCS\Services\ClusSvc\Parameters 註冊表項中包含的信息加載最小的配置模板。該節點將嘗試加入一個已成形的羣集,如果該嘗試成功,該羣集註冊表配置單元的一個全新副本將被推送到該節點。如果節點無法加入羣集,羣集服務將終止。


 

新的備份和還原功能
“故障轉移羣集”自帶了“卷影複製服務”編寫器。它在備份和還原羣集數據庫以及物理磁盤資源上保存的數據過程中起着非常關鍵的作用。備份羣集配置非常簡單。只要系統狀態爲備份的一部分,就可以還原羣集配置。但請注意,僅應備份具有仲裁的羣集。從而確保備份的是最新的羣集配置。
有兩種完全不同的羣集還原類型:權威還原和非權威還原。非權威還原使用 Windows Server Backup 或第三方備份應用程序來從選定的備份執行還原。而羣集結點的權威還原僅可使用 Windows Server Backup CLI (wbadmin.exe) 執行還原。
權威還原實質上是將羣集配置“帶回”執行備份時的狀態。要完成權威還原,必須停止除正在執行還原的節點以外的所有其他節點上的羣集服務。當還原完成且在已還原節點上啓動羣集服務後,羣集的還原配置將變成權威性的新羣集配置。然後,在羣集中的其他節點上重新啓動羣集服務時,還原配置將在加入過程中向外推送到這些節點。
在某些情況下,它可以節省大量的時間和資金。假設您有一個包含多個打印後臺處理程序資源的打印羣集且每個資源都支持 1,500 臺打印機,而您無意間刪除了其中一個打印後臺處理程序資源。現在,大量用戶無法正常打印。與其手動將這些打印機都重新添加回羣集配置,更快的方法是執行羣集配置的權威還原。當然,這需要您具備良好的備份和還原策略。


 

從 Windows Server 2003 服務器羣集進行遷移
由於 Windows Server 2008 故障轉移羣集包含這些體系結構更改,因此並不支持從 Windows Server 2003 執行就地或週期性升級。從 Windows Server 2000 羣集升級到 Windows Server 2003 時,許多組織都系統地刪除了羣集中的所有節點,全新安裝操作系統,然後再將節點重新添加到羣集中。這種方法無法用於遷移到 Windows Server 2008 的情形,因爲 Windows Server 2003 和 Windows Server 2008 羣集節點不能處於同一羣集當中。
幸運地是,系統提供了一個基於嚮導的遷移過程來幫助執行遷移。但是遷移到 Windows Server 2008 故障羣集需要執行一些規劃。有以下三種基本的遷移方案:
  • 使用相同的服務器和存儲。
  • 使用相同的服務器,但使用新的存儲。
  • 使用新的服務器和新的存儲。
所有方案都需要確保硬件已通過 Windows Server 2008 徽標計劃的認證,並且已運行故障轉移羣集驗證過程且通過了所有的測試。完成這些步驟後,就可繼續執行遷移過程。
並非 Windows Server 2003 服務器羣集中的所有資源都可以遷移。可遷移網絡名稱、IP 地址、物理磁盤、文件共享、分佈式文件共享 (DFS) 根、DHCP 和 WINS。也可(有限地)遷移通用服務、通用應用程序和通用腳本資源。
同時,Microsoft Exchange 和 SQL Server® 之類的應用程序都擁有自己的程序來遷移到“故障轉移羣集”。打印機可使用“打印管理”管理單元(與“打印服務器角色”一起安裝)遷移到 Windows Server 2008,從而先將打印機導出然後再將其導入新配置的高度可用的打印服務器。無法遷移第三方資源類型。
遷移過程不會遷移任何數據。它會將羣集配置設置從 Windows Server 2003 遷移到 Windows Server 2008。
遷移過程完成時,所有的遷移資源最初都處於脫機狀態。原因是可能存在其他必要的步驟。因此,在開始使用羣集之前,必須查看遷移後報告以瞭解還需要執行哪些步驟(如果遷移到新存儲則還需要執行數據遷移)。例如,如果遷移 DHCP 服務器,必須在羣集中的所有節點上安裝“DHCP 服務器角色”。如果遷移 WINS 服務器,必須在羣集中的所有節點上安裝“WINS 服務器”功能。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章