专栏首页云技术+云运维rac节点频繁重启的问题分析

rac节点频繁重启的问题分析

环境:两台联想R680的物理机搭建一套2节点RAC,数据库版本为ORACLE 11.2.0.4

一、故障问题现象: 节点2频繁发生重启,从1月至2月发生多次重启,甚至一天内3次重启,让人头疼。

二、问题分析处理过程:

1、时间同步问题 首先怀疑是时间不同步造成的。 观察现象是该服务器的ntp时间同步offset过大(下图offset为11376)

并在数据库的CTSS日志出现不正常的返回值

在这里发现一个问题,就是时间源指向旧的时间源服务器,而服务器在新的数据中心,所以修改为新数据中心的时间源服务器并修改了BIOS时钟,使系统时钟和硬件时钟时间一致。至此,时间同步问题排除。

2、数据库日志反应的问题

通过查ALERT日志,发现有节点驱逐

又查CSSD日志发现

显示有磁盘的心跳,但无网络的心跳。

此时判断:node 2 节点老是频繁重启,私网出问题的概率会较大,因此从网络处查。node 2 每次重启完以后,都能顺利加入rac集群,更不是时间同步的问题。 

补充:

如果集群中的节点连续丢失磁盘心跳或网络心跳,该节点就会被从集群中驱逐,也就是节点重启。组管理导致的节点重启,我们称之为node kill escalation(只有在11gR1以及以上版本适用)。重启需要在指定的时间(reboot time,一般为3秒)内完成。

网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息,以确认各个节点是否正常。如果某个节点连续丢失网络心跳达到阀值,misscount(默认为30秒,如果存在其他集群管理软件则为600秒),集群会通过表决盘进行投票,使丢失网络心跳的节点被主节点驱逐出集群,即节点重启。如果集群只包含2个节点,则会出现脑裂,结果是节点号小的节点存活下来,即使是节点号小的节点存在网络问题。

磁盘心跳:ocssd.bin进程每秒钟都会向所有表决盘(Voting File)注册本节点的状态信息,这个过程叫做磁盘心跳。如果某个节点连续丢失磁盘心跳达到阀值disk timeou(一般为200秒),则该节点会自动重启以保证集群的一致性。另外,CRS只要求[N/2]+1个表决盘可用即可,其中N为表决盘数量,一般为奇数。

3、核查网络的问题

这套RAC的心跳网是由ETH13和ETH15两块网卡组成,对应两个交换机的两个端口。

先后采取激活宕掉交换机两个端口和网卡口没有解决问题,最后又采用换线、单独拉线等解决办法,发现线的光衰有点大,但重启问题没有最终解决。

4、是否是硬件的问题?

问题至此陷入了困境,换个思路既然网络和数据库都可能不是问题,那么硬件真的能独善其身,超然之外么?

答案是否定的,那就是硬件的问题。

在节点发生重启时,数据库的日志里有中断的现象,那么会不会是CPU和内存的问题呢?检查下MCELOG日志就知道了。

MCELOG不容忽视的日志

mcelog 是 x86 的 Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。它的日志就是MCELOG.

一般来说大内存的服务器容易出现内存上的问题,现在内存控制器都是集成在cpu里,内存的校验错误和CPU的问题易引起服务器的重启。

好了,下面我们看看MCELOG日志的错误提示

ORACLE官方对MCELOG事件的解释:

至此,问题浮出水面。和硬件厂商联系,刷主板固件程序,更换一根内存后问题最终解决。

三、问题总结与思考:

1、不能忽视监控的作用。这次内存硬件的问题,在服务器硬件监控平台没有被发现,这个需要联系厂商,继续完善服务器硬件监控的细粒度和敏感性

2、从日志、网络、数据库、系统、硬件等方面全面排查,问题终会被发现。

3、解决问题靠的是耐心和细心,进一步再进一步,问题终会被解决。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • RAC一个节点自动重启问题分析

    题记:在RAC数据库的故障当中,节点重启的现象很常见,在这种问题的处理当中,有一定的规律性。为了更好的说明这个问题的处理过程,保证出现该类问题的时候,能够有序的...

    孙杰
  • vSphere 6 创建RAC虚拟机共享磁盘解析

    在vsphere环境中搭建虚机RAC需要遵循一定的步骤,虚拟机配置RAC,如果不是挂裸盘RDM的话,按以下步骤进行,不影响VMotion 的功能,但是影响Sto...

    孙杰
  • oracle12c rac搭建时主机名无效问题的解决

    在windows 2012 64位企业版上搭建oracle 12c  rac集群,hosts文件如下: #add for rac config 11.14.72...

    孙杰
  • Data Structure前情提要——二叉树红黑树

    叶子节点就是左右孩子都是空的,但是并不是每一颗树都像上图所示的那样这么规整,有些树树可以只有左孩子没有右孩子的。二叉树的节点一定会大于左节点的值小于右节点的值,...

    西红柿炒鸡蛋
  • Content to Node: Self-Translation Network Embedding

    paper:https://dl.acm.org/citation.cfm?id=3219988

    超然
  • jdk源码分析红黑树——插入篇1.插入root2.父黑3.父红4.父红,叔红5.1父红,叔黑,外侧子孙5.2父红,叔黑,内侧子孙

    红黑树是自平衡的排序树,自平衡的优点是减少遍历的节点,所以效率会高。如果是非平衡的二叉树,当顺序或逆序插入的时候,查找动作很可能会遍历n个节点 红黑树的规则很容...

    用户1174983
  • 用 Go 构建一个区块链 -- Part 7: 网络

    翻译的系列文章我已经放到了 GitHub 上:blockchain-tutorial,后续如有更新都会在 GitHub 上,可能就不在这里同步了。如果想直接运行...

    用户1558438
  • NLP入门之形式语言与自动机学习(二)

    第二篇:逻辑与图论 1:什么是命题? 说起什么是命题,命题是一个能够判断真假的语句,一般可以用一个大写的字母表示为一个命题.举个例子: A:3是奇数 B:铜是金...

    云时之间
  • NLP入门之形式语言与自动机学习(二)

    1:什么是命题? 说起什么是命题,命题是一个能够判断真假的语句,一般可以用一个大写的字母表示为一个命题.举个例子:

    云时之间
  • (一):C++分布式实时应用框架----整体介绍

    版权声明:本文版权及所用技术归属smartguys团队所有,对于抄袭,非经同意转载等行为保留法律追究的权利!

    smartguys

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动