10G RAC單節點重啓的故障

遇到10G RAC單節點重啓的故障按照以下步驟檢查:首先可以結合操作系統的dump文件確定是哪個進程導致的重啓。或者是否是其他問題。 如果時cssd.bin導致重啓,最常見的重啓問題: 一:察看crs下ocssd.log集羣日誌文件。搜索關鍵字:WARNING察看有沒有問題存在。 如果出現連續30個如下錯誤報警導致重啓:[    CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds檢查網絡心跳鏈路:主機私有網卡,交換機,線路,hosts文件是否正常。 如出現短暫的如下錯誤,例如只出現一兩個,一個節點就被驅逐導致重啓:[    CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds請檢查磁盤心跳votedisk和ocr是否正常,確定是否使用文件系統(確定文件系統工作正常)。檢查votedisk:crsctl query css votedisk檢查ocr:ocrcheck 如果出現以下錯誤:WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds問題出在磁盤心跳請依照上面檢查。二:2.檢查看看系統是否處在高負載狀態,cpu,內存等。 3.察看是否爲誤操作,刪除crs_home。 4.Css的設置問題,hosts文件等 5.殺死init.cssd fatal進程和 ocssd進程 6.Oracle bug問題- An Oracle bug. Known bugs that can cause CSS reboots:Note 264699.1 - CSS Fails to Flush Writes After Installing 10.1.0.2 CRS on Linux with OCFSBug 3942568 - A deadlock can occur between 2 threads of the CSS daemon process.Fixed in 10.1.0.4 and above.SOLARIS ONLY: See these bugids that fixed the problem (in Solaris 9; the fixes were backported to Solaris 8 Update 6): 三:檢查操作系統設置參數:檢查操作系統中/etc/init.d/init.cssd文件中參數: OPROCD_DEFAULT_MARGIN最少設置爲爲500。(避免節點重啓) -t : 超時時間,缺省1000,單位毫秒 (OPROCD_DEFAULT_TIMEOUT=1000)-m : 重啓前可接受的延遲,單位毫秒,缺省500 (OPROCD_DEFAULT_MARGIN=500) 檢查ORACLE提供的CLUSTER來說,是否設置爲最少css MISSCOUNT是600秒。(crsctl命令修改)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章