硬盤故障修復 原

近期公司一臺服務器的磁盤告警“磁盤陣列錯誤”,經檢查發現磁盤:“PD0/PD1/PD2 硬盤Medium Error DevId 並BadStripe PD0 PD1”,需要在服務器磁盤徹底崩潰之前進行raid修復,具體過程如下:

故障排查

根據告警信息進行定位:

20180817153448707917248.png

查看服務器當前配置信息

主要是查看當前服務器磁盤的raid類型,結果如下:

[root@db08 linux]# hwinfo
basename: 缺少操作數
Try 'basename --help' for more information.
{
"機器型號":"R430",
"機器高度":"1U",
"CPU信息":{"CPU型號":"E5-2620","核數":6,"線程":12,"CPU個數":2},
"內存信息":{"內存型號":"M393A2G40DB0-CPB,NotSpecified","每條大小":"16G","條數":2},
"系統盤信息":{"磁盤類別":"SAS","磁盤大小":"600G","磁盤個數":4,"陣列類型":"RAID-10"},
"運行盤信息":{"磁盤類別":"","磁盤大小":"G","磁盤個數":0,"陣列類型":" Layout RAID-10"},
"備份盤信息":{"磁盤類別":"","磁盤大小":"G","磁盤個數":0,"陣列類型":" Layout RAID-10"},
"操作系統版本":"CentOSrelease",
"快速服務代碼":"943XG82",
"其他信息":"null"
}

根據結果顯示確定磁盤的raid類型爲raid 10,如果磁盤已經嚴重損壞,只剩一塊磁盤在工作,那麼將看不出工作類型了,結果會是下面這樣:

[root@db08 linux]# hwinfo disk 
basename: 缺少操作數
Try 'basename --help' for more information.
{
"機器型號":"R430",
"機器高度":"1U",
"CPU信息":{"CPU型號":"E5-2620","核數":6,"線程":12,"CPU個數":2},
"內存信息":{"內存型號":"M393A2G40DB0-CPB,NotSpecified","每條大小":"16G","條數":2},
"系統盤信息":{"磁盤類別":"/dev/sda","磁盤大小":"600G","磁盤個數":4,"陣列類型":"No"},
"運行盤信息":{"磁盤類別":"","磁盤大小":"G","磁盤個數":0,"陣列類型":" Encrypted No"},
"備份盤信息":{"磁盤類別":"","磁盤大小":"G","磁盤個數":0,"陣列類型":" Encrypted No"},
"操作系統版本":"CentOSrelease",
"快速服務代碼":"943SG82",
"其他信息":"null"
}

截止目前只能確定raid類型,那麼到底是什麼原因導致磁盤陣列故障呢?請繼續往下看。

故障定位:請求支援

到底如何定位問題所在呢???答案只有一個:日誌!

日誌太多了,看哪些?對硬件一竅不通的我只能請求支援——Dell服務器技術支持(https://www.dell.com/support/home/cn/zh/cnbsd1)。

  • 在Dell官網查看服務器信息,服務器的SN詳見主機運維,獲取“快速服務代碼”(打電話請求支持時會用到): 20180817153448970516791.png
  • 接下來打官方客服電話吧: 20180817153448983656965.png
  • 然後會有技術人員指導操作,有什麼問題儘管問吧,服務態度還是不錯的!!!

故障定位:信息採集

Dell技術支持會提供日誌採集工具,在此推薦使用MegaCLI8_Linux.zip (爲方便使用,已上傳至本地鏡像庫,內置使用說明),點擊該鏈接可直接下載使用,如果在家辦公,該地址不能用,提供個人自願地址:鏈接: https://pan.baidu.com/s/1boCYCWLghV5XsWnv9SCMbg 密碼: 3dqn。

安裝和使用

因爲下載的安裝包內有使用說明,所以在此不做贅述,只把使用過程中的一點小問題記錄一下:

# 安裝出現衝突(注意:使用Run腳本安裝的時候看不到該錯誤,所以需要手動安裝調試)
[root@db08 linux]# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.02.21-1.noarch.rpm 
準備中...                          ################################# [100%]
	file /opt/lsi/3rdpartylibs/x86_64/libsysfs.so.2.0.2 from install of Lib_Utils-1.00-09.noarch conflicts with file from package srvadmin-storelib-sysfs-9.1.0-2757.12163.el7.x86_64
	
# 原因是與Dell服務器自帶的包srvadmin衝突,直接將其卸載即可
[root@db08 linux]# rpm -e srvadmin-storelib-sysfs-9.1.0-2757.12163.el7.x86_64 --nodeps
[root@db08 linux]# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.02.21-1.noarch.rpm 
準備中...                          ################################# [100%]
Installing....
正在升級/安裝...
   1:Lib_Utils-1.00-09                ################################# [ 50%]
   2:MegaCli-8.02.21-1                ################################# [100%]
   
 # 安裝完成後更改Run腳本,把安裝操作註釋掉,直接進行日誌採集
 [root@db08 linux]# ./Run-Linux-PERC6-v1.0.sh 
 WARNING!!!!!! 
 TTY Log collecting, Please wait a moment! Thanks!
                                     
Success in AdpEventLog
 
 FINISH...... 
 PERC TTY-log Tools for Linux had collected the logs to PERCLINUX.tgz 
 Please send the PERCLINUX.tgz file to DELL support, thanks!

完成日誌採集後將日誌文件發送給技術支持(對方會提前郵件和你聯繫)。

故障定位:劇終!

Dell技術支持經過日誌排查問題後會反饋結果以及處理建議,後續需要運維和ucloud機房以及Dell工程師協調時間,更換磁盤,更換磁盤前一定要記得備份數據以及做好服務遷移啊!!!

數據備份及服務遷移

檢查當前服務器信息

進行遷移和備份之前首先要做的就是清楚當前服務器的情況,主要由以下幾項:

  • 硬件信息:CPU、mem、磁盤(大小、raid級別、分區狀況)等等;
  • 防火牆:iptables -nvL
  • 服務信息:檢查都部署哪些服務,最直接的辦法就是查看當前端口使用情況
    • 檢查服務器端口狀態:netstat -lntp
    • 安全起見,查看一下當前服務器運行狀態:htop

實施遷移

先在已有服務器看看有麼有充足的資源,如果資源充足就直接使用,如果資源不足,臨時申請雲主機。注意: 如果使用物理機資源一定要記得根據源服務器配置iptables規則放行服務端口,雲主機就不用了,申領時直接使用內網防火牆就可以。

因公司集成了devops自動化運維管理平臺,所以在環境部署過程中可以直接通過devops進行,如果公司還沒有實現自動化,需要手動進行部署。

遷移過程如下:

  • 檢查當前服務器部署的服務,可以到 https://devops.adai.me/dashboard/rpc/ 進行查看或者使用netstat -lntp
  • 查看devops項目管理,如果對應項目已經加入devops進行管理,則可以直接通過devops進行自動化部署;
    • 注意: 使用devops管理時部署(只部署虛擬環境)完成後需要進行更新(創建項目對應的配置文件)配置。
  • 如果項目未加入devops管理,則需要手動進行處理,如test_typo項目;
  • Geo_location、ip_location直接從源機器拷貝配置文件到備份主機啓動即可用;
  • filebeat(收集日誌)、etcd需要通過ansible進行部署;
  • 項目遷移完成後檢測服務的可用性,medweb項目可以到 https://logs.adai.me 查看日誌信息(此處收集到日誌說明服務正常): 20180820153476426368590.png
  • Note: 對外服務還需要通知第三方(百度、wechat等)配置ip白名單(物理機當前使用統一的外網ip,不用處理;雲主機使用nat網關做的端口映射,需要提醒第三方將該網關ip加入白名單中);

磁盤更換&&項目回遷

數據遷移完後找聯繫戴爾技術支持以及ucloud機房管理人員協調機房入室時間,商定後到ucloud填寫服務單。

待磁盤更換完畢後安排ucloud機房管理人員重裝系統,檢測無誤後將原有服務遷回來,確認運行正常後將臨時申領的雲主機資源釋放掉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章