一个空格引发的血案

系统运维从来就是一个精细化的工作,除了规则与规范的约束之外,运维人员的严谨、谨慎也必不可少,有时候一个简单的错误就会导致一场灾难,小到一个字符,一个空格。

本文的案例就是因为一个空格导致的,Oracle RAC遭遇故障重启。

故障现象:客户10.2.0.4 RAC for Solaris 10环境突然出现了实例重启。

故障过程:数据库正常运行到下午3点左右,随后两个节点分别重启,其中一个节点上的实例无法自动启动。检查两个实例的告警日志发现,在节点重启前,两个节点都出现了明显的ORA-27504错误。

错误信息

ORA-27504: IPC error creating OSD context ORA-27300: OS system dependent operation: if_not_found failed WITH STATUS: 0 ORA-27301: OS failure message: Error 0 ORA-27302: failure occurred at: skgxpvaddr9 ORA-27303: additional information: requested interface 192.168.168.3 NOT found. CHECK output FROM ifconfig command

注意,这里的错误信息提示已经比较明确,请求的IP地址不存在,需要检查ifconfig的输出。

接下来就是IPC超时:

Wed Apr 10 15:08:13 2013 ospid 25678: network interface WITH IP address 192.168.168.3 no longer operational requested interface 192.168.168.3 NOT found. CHECK output FROM ifconfig command Wed Apr 10 15:08:16 2013 IPC Send timeout detected.Sender: ospid 25748 Receiver: inst 2 binc 430164 ospid 11890

再然后实例驱逐不可避免:

Wed Apr 10 15:16:40 2013 Waiting FOR instances TO leave: 2

导致问题的原因根据错误信息很容易分析出来,节点2上的IP地址被修改,导致心跳通信出现了异常,而节点1试图将节点2踢出集群,但是由于无法和节点2之间进行通信,因此只有等待节点2重启

检查节点2的操作系统日志,获得如下主要信息:

Apr 10 15:00:04 ip: [ID 482227 kern.notice] ip_arp_done: init failed Had[4135]: [ID 702911 daemon.notice] VCS CRITICAL CPU usage ON bj-sst IS 92% sshd[13485]:error: Failed TO allocate internet-DOMAIN X11 display socket.

在15点04秒时出现的ip_arp_done: init failed信息,说明设置网卡接口时使用了主机名信息,且主机的IP地址被在线修改。

最后根据HISTORY确认,发现有人通过root登录系统:

执行ifconfig –a6来检查IPV6的地址,但是命令敲错 执行了ifconfig –a 6,在a和6之间多了一个空格 导致主机所有的IP地址被设置成0.0.0.0

于是导致了上面的整个故障,一个空格导致整个集群瞬间崩溃,这就是一个空格引发的血案。

这个案例给我们的教训是,对于特权用户,任何一个操作,具体到命令级别,也需要小心谨慎,DBA用户和ROOT用户都在此列。

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2015-09-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏difcareer的技术笔记

修改手机的ro.debuggable配置0x01:获取boot.img0x02:修改boot.img0x03:boot.img相关0x04:变砖后的自救

我们自己编译的源码刷机ro.debuggable就是为1,这个时候所有的进程都可以远程调试。但是自己编译的源码里面没有GooglePlay,有些应用的部分功能又...

3993
来自专栏张戈的专栏

WordPress启用memcached动态缓存以及报错解决

张戈博客目前用的是Nginx 的 fastcgi 缓存方案,属于纯净态缓存模式,所以前台登录态什么的基本都没了。如果要兼顾前台登录态,又想速度快,有没有解决方案...

5959
来自专栏FreeBuf

一款轻量级Web漏洞教学演示系统(DSVW)

Damn Small Vulnerable Web (DSVW) 是使用 Python 语言开发的 Web应用漏洞 的演练系统。其系统只有一个 python 的...

28610
来自专栏黑白安全

网站漏洞扫描工具 WAScan-Web Application Scanner

WAScan是一款开源工具,该工具采用的是基于黑盒的漏洞挖掘方法,这也就意味着研究人员无需对Web应用程序的源代码进行研究,它可以直接被当作成一种模糊测试工具来...

9883
来自专栏云知识学习

Windows Server 2008 用户管理

”用户”是计算机的使用者在计算机系统中的身份映射,不同的用户身份拥有不同的权限,每个用户包含一个名称和一个密码;

45612
来自专栏自由而无用的灵魂的碎碎念

使用yum升级Fedora系统中的firefox为最新发布版本

安装fedora后,发现默认的升级只能升级当前firefox版本为最新更新版本,不会跨版本升级,经过搜索,如下方法最简洁有效,特此分享:

962
来自专栏跟着阿笨一起玩NET

Log4Net日志记录两种方式

     log4net库是Apache log4j框架在Microsoft .NET平台的实现,是一个帮助程序员将日志信息输出到各种目标(控制台、文件、数据库...

3612
来自专栏bboysoul

linux编译安装mysql5.7

wget mirrors.sohu.com/mysql/MySQL-5.7/mysql-boost-5.7.17.tar.gz 因为官方下载地址速度太慢了,所...

1763
来自专栏晨星先生的自留地

日志攻防初探之windows篇(iis日志介绍)

4136
来自专栏乐沙弥的世界

Linux 6 下yum方式安装配置LAMP平台

1、apache httpd与php之间的衔接是通过模块化的方式来实现。 2、对于perfork模式使用libphp5模块,worker和event模式则使...

1632

扫码关注云+社区

领取腾讯云代金券