ORACLE 10G RAC 節點自動重啓故障處理

將數據庫集羣升級到10.2.0.5之後,雙節點服務器不斷重啓,查詢oracle oprocd進程日誌,信息如下:

Jul 03 08:16:34.702 | INF | monitoring started with timeout(1000), margin(500), skewTimeout(125)
Jul 03 08:16:34.704 | INF | fatal mode startup, setting process to fatal mode

可以看到看到oprocd進程的時間間隔設置爲

timeout(1000), margin(500), skewTimeout(125)

查看其它的日誌信息,沒有發現明顯的錯誤信息,因此懷疑是oprocd的時間參數設置不當。

修改參數如下:

#crsctl set css diagwait 13 -force

修改參數時,需要注意如下幾個事項

當我們設置diagwait參數時,需要停止所有rac節點的集羣活動,停止順序如下(如果集羣式活動的,修改diagwait有可能會損害ocr):

1,以root用戶在所有節點執行

#crsctl stop crs 
#<CRS_HOME>/bin/oprocd stop

2,確認所有節點的進程已經停止

#ps -ef |egrep "crsd.bin|ocssd.bin|evmd.bin|oprocd"

3,修改參數,僅僅在一個節點修改就可以了

#crsctl set css diagwait 13 -force
4,查看參數修改情況

#crsctl get css diagwait

5,啓動集羣節點
#crsctl start crs
#crsctl check crs

修改參數後,集羣服務運行正常,沒有再自動重啓過。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章