raid5掉了2塊硬盤,熱備盤未激活的恢復過程記錄

【Raid5陣列數據恢復案例簡介】

今天記錄一次raid5磁盤陣列數據恢復的成功案例。首先簡單介紹一下需要數據恢復的服務器基礎配置情況:
·
客戶的服務器設備爲EMC存儲,raid5磁盤陣列,由多塊stat硬盤組成一組磁盤陣列,包含兩塊熱備盤。服務器發生故障崩潰時底層硬盤有2塊出現故障,熱備盤中有一塊被激活。
·

【服務器數據恢復常規檢測】

數據恢復中心的數據恢復工程師前往客戶現場對服務器設備進行故障檢測。服務器數據恢復工程師對客戶服務器設備進行了簡單排查,確認raid5陣列癱瘓;上層lun無法正常使用,2塊熱備盤中有一塊已經啓動。
·
數據恢復工程師對掉線的硬盤進行物理排查,兩塊硬盤中均未檢測到壞道、磁頭故障等物理損壞。進行接下來的數據恢復操作時可以不需要進行物理修復即可。
·

【raid5數據備份】

在數據恢復操作之前,需要將服務器設備上的所有原始數據進行鏡像備份,在本次數據恢復案例中,服務器數據恢復工程師將所有硬盤連接到北亞數據恢復中心的數據恢復專用存儲池中,對所有硬盤進行了扇區級鏡像操作。
·

【分析該服務器raid組結構】

服務器數據恢復操作通常都是基於恢復raid組進行數據恢復操作的,因此本次數據恢復操作也同樣需要對raid陣列基礎信息進行分析,從而重組raid結構。
·
經過數據恢復工程師對每一塊硬盤的分析發現,客戶原服務器內的兩塊熱備盤內全部沒有任何數據,也就是說即使被激活的熱備盤也同樣沒有同步到任何數據,兩塊熱備盤從實際上而言並沒有發生任何作用。想要恢復數據,只好繼續恢復原raid5陣列的其他基本數據,重組raid5.
·

【分析RAID組掉線盤信息】

根據上述數據恢復思路,服務器數據恢復工程師使用自主研發的數據恢復工具分析出該組raid5陣列的基礎信息,並虛擬重組出了raid5磁盤陣列。在raid數據恢復常規流程下,我們會將多塊硬盤掉線的陣列中最早掉線的硬盤從陣列中剔除。通常我們進行數據分析的方法是比對每塊硬盤在同一個條帶上的數據是否一致,將明顯不同的硬盤剔除後進行條帶校驗,直至找到數據恢復的最佳狀態爲止。
·

【分析RAID組中的LUN信息】

成功重組出raid5陣列後,工程師開始對lun信息進行分析,在本次數據恢復案例中,客戶的服務器上層只有一個lun,工程師只需要將這唯一的一個lun信息進行分析,然後使用raid數據恢復程序對lun數據的map進行解析和導出。
·

【ZFS文件系統解析並修復】

使用數據恢復工具對上層的文件系統進行解析和恢復。客戶上層採用的是zfs文件系統,服務器數據恢復工程師對文件系統解析時發現部分文件系統元文件報錯,於是數據恢復工程師對現有的數據恢復工具進行debug調試,使程序適應本次數據恢復的實際情況。
·
經過調試,導致zfs文件系統解析報錯的原因是由於客戶的服務器突然癱瘓導致文件系統中某些元文件被損壞,導致數據恢復工具無法正常解析。服務器數據恢復工程師針對損壞的元文件採用人工修復等方法,保障zfs文件系統可以被正常解析。
·

【導出raid5陣列內所有數據】

通過對文件系統的完整解析,服務器數據恢復工程師最終將客戶raid陣列內的數據完整導出,由客戶工程師配合搭建數據驗證環境,恢復出來的所有數據進行驗證,經過驗證,客戶原服務器內的所有數據均被成功恢復,本次數據恢復成功。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章