一个空格引发的血案

系统运维从来就是一个精细化的工作,除了规则与规范的约束之外,运维人员的严谨、谨慎也必不可少,有时候一个简单的错误就会导致一场灾难,小到一个字符,一个空格。

本文的案例就是因为一个空格导致的,Oracle RAC遭遇故障重启。

故障现象:客户10.2.0.4 RAC for Solaris 10环境突然出现了实例重启。

故障过程:数据库正常运行到下午3点左右,随后两个节点分别重启,其中一个节点上的实例无法自动启动。检查两个实例的告警日志发现,在节点重启前,两个节点都出现了明显的ORA-27504错误。

错误信息

ORA-27504: IPC error creating OSD context ORA-27300: OS system dependent operation: if_not_found failed WITH STATUS: 0 ORA-27301: OS failure message: Error 0 ORA-27302: failure occurred at: skgxpvaddr9 ORA-27303: additional information: requested interface 192.168.168.3 NOT found. CHECK output FROM ifconfig command

注意,这里的错误信息提示已经比较明确,请求的IP地址不存在,需要检查ifconfig的输出。

接下来就是IPC超时:

Wed Apr 10 15:08:13 2013 ospid 25678: network interface WITH IP address 192.168.168.3 no longer operational requested interface 192.168.168.3 NOT found. CHECK output FROM ifconfig command Wed Apr 10 15:08:16 2013 IPC Send timeout detected.Sender: ospid 25748 Receiver: inst 2 binc 430164 ospid 11890

再然后实例驱逐不可避免:

Wed Apr 10 15:16:40 2013 Waiting FOR instances TO leave: 2

导致问题的原因根据错误信息很容易分析出来,节点2上的IP地址被修改,导致心跳通信出现了异常,而节点1试图将节点2踢出集群,但是由于无法和节点2之间进行通信,因此只有等待节点2重启

检查节点2的操作系统日志,获得如下主要信息:

Apr 10 15:00:04 ip: [ID 482227 kern.notice] ip_arp_done: init failed Had[4135]: [ID 702911 daemon.notice] VCS CRITICAL CPU usage ON bj-sst IS 92% sshd[13485]:error: Failed TO allocate internet-DOMAIN X11 display socket.

在15点04秒时出现的ip_arp_done: init failed信息,说明设置网卡接口时使用了主机名信息,且主机的IP地址被在线修改。

最后根据HISTORY确认,发现有人通过root登录系统:

执行ifconfig –a6来检查IPV6的地址,但是命令敲错 执行了ifconfig –a 6,在a和6之间多了一个空格 导致主机所有的IP地址被设置成0.0.0.0

于是导致了上面的整个故障,一个空格导致整个集群瞬间崩溃,这就是一个空格引发的血案。

这个案例给我们的教训是,对于特权用户,任何一个操作,具体到命令级别,也需要小心谨慎,DBA用户和ROOT用户都在此列。

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2015-09-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

1 条评论
登录 后参与评论

相关文章

来自专栏木可大大

漫谈版本控制系统

当我们单独使用这些文件时,按照上述方式可以很好的管理文件,但是,如果现在有两个人同时修改这份文件,那么,其中一人对文件修改的内容会被另一人的内容所覆盖,这是我们...

47417
来自专栏coding for love

在线商城项目08-数据库创建和商品集合的创建

因为six_tao中没有任何内容。我们需要为其创建一个集合或者插入文档,数据库才会显示。例如:

594
来自专栏杨建荣的学习笔记

使用logon trigger完成动态的session跟踪(r4笔记第29天)

在之前讨论过 关于oracle中session跟踪的总结,可以参见链接 http://blog.itpub.net/23718752/viewspace-115...

2674
来自专栏「3306 Pai」社区

关于MySQL 8.0的几个重点,都在这里

在MySQL8.0中重新设计了redo log,主要改进fsync,使得效率更高,减少锁,优化flush机制,不会频繁flush。同时,支持更高用户并发请求。

600
来自专栏后端技术探索

nginx 502错误原因和解决办法总结

一、NGINX 502错误排查 NGINX 502 Bad Gateway错误是FastCGI有问题,造成NGINX 502错误的可能性比较多。将网上找到的一些...

612
来自专栏云计算教程系列

如何使用MySQLTuner优化MySQL性能

MySQLTuner是一个用Perl编写的脚本,帮助你提高MySQL性能及稳定性。它通过检索当前配置变量和状态数据,提供一些基本性能建议。

1115
来自专栏jessetalks

Windows平台分布式架构实践 - 负载均衡(下)

概述   我们在上一篇Windows平台分布式架构实践 - 负载均衡中讨论了Windows平台下通过NLB(Network Load Balancer) 来实现...

34510
来自专栏happyJared

Python爬取微信公众号文章和评论 (基于Fiddler抓包分析)

  感觉微信公众号算得是比较难爬的平台之一,不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制),但后面会开始整理写一些实战出来。简单介...

352
来自专栏知无涯

PHP程序员应该知道的15个库

3409
来自专栏腾讯云数据库(TencentDB)

MySQL 8.0 版本功能变更介绍

作者介绍:朱强,腾讯云数据库高级工程师,主要负责腾讯云数据库MySQL的开发和运营,曾就职于华为和网宿,在存储、文件系统开发有丰富经验。

87256

扫描关注云+社区