容灾切换中的数据库宕机问题简单分析(一) (r9笔记第12天)

最近对一个统计库做了计划内的容灾切换,即主备切换。操作的过程其实还是蛮顺利的。但是灾难切换中如果出现在问题,那就是灾难中的灾难了。 按照计划对配置信息做了同步,然后使用DG Broker做了SwitchOver操作。 这一次切换速度还是蛮快,我开了几个窗口看到日志都在不断输出,角色已经替换过来了。DG Broker切换的日志如下: DGMGRL> switchover to test29; Performing switchover NOW, please wait... New primary database "test29" is opening... Operation requires shutdown of instance "test2" on database "sgstatdb3" Shutting down instance "test2"... ORA-01031: insufficient privileges Warning: You are no longer connected to ORACLE. Please complete the following steps to finish switchover: shut down instance "statdb2" of database "stest3" start up instance "statdb2" of database "stest3" 这个时候备库已经切换为主库,只要重启切换前的主库即可。 但是这么一个简单的操作就出了问题。shutdown immediate命令敲下去之后,客户端就没有反应了。 SQL> shutdown immediate ORA-01092: ORACLE instance terminated. Disconnection forced SQL> Write failed: Broken pipe 然后等了一下,从中控端去登录就无法连通了。这个问题确实够奇怪,我去ILO查看发现系统已经在自动重启了。 当然宽慰的是切换已经完成,可以先让应用的同学去测试他们的业务了。我们可以继续处理这个意料之外的问题。 在宕机的瞬间,数据库alert日志只输出了一行内容“ ORA-1092 : opitsk aborting process Write failed: Broken pipe 查看ILO的界面,发现系统已经在初始化中了。

等了一会就看到系统的界面提示RAID信息貌似不一致了。这个库里的盘很多,配置这个还真不在行。

简单咨询了下同事,还是选择热引导重启,重启之后,貌似那个问题是过去了,然后就弹出一个错误。已经很明确告诉我是BUG,而且是CPU相关的。

再次重启,还是同样的问题,这个时候我们就需要两手准备,如果服务器无法重启,就需要马上开始准备新的备库的事宜了。 最后我们还是尝试冷引导,类似断电重启的方式,这一次系统竟然起来了,也算是不幸中的万幸了。 当然对于这个问题。马上就收到了一个报警短信,提示服务器的/var目录空间不足了。 仔细一看原来生成了kdump文件,有大概6G左右。 -rw------- 1 root root 6446125056 May 26 11:15 vmcore-incomplete 对这个文件是需要使用命令crash或者其它第三方工具查看的,根据同事的反馈,在Dell 720XD,系统6U3中确实会有这种问题。 我这个问题的必备条件全满足了,我还在想是否为什么之前没有碰到过,仔细一看原来早就有这个坑了,去年的时候这个数据库就重启过,已经有了crash的问题了。 # ll total 8 drwxr-xr-x 2 root root 4096 Aug 2 2015 127.0.0.1-2015-08-02-09:50:47 drwxr-xr-x 2 root root 4096 May 26 15:46 127.0.0.1-2016-05-26-11:05:18 后续进行更多的分析。

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2016-05-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

云存储平台&服务安全分析报告

1. 概要 本报告展示了一种新型的攻击,我们称之为“Man in the cloud(MITC)”。MITC攻击将常见的文件同步服务(如GoogleDrive、...

3419
来自专栏腾讯云TStack专栏

RBD至FileStore之所见(原理篇)

前言 我们知道,FileStore是目前Ceph版本的默认存储方式(后续社区准备采用BlueStore)。 RDB是我们虚拟机使用Ceph的常用方式,Ceph...

5314
来自专栏杨建荣的学习笔记

Data Guard搭建困境突围(一)(r10笔记第17天)

在Oracle 10g的中搭建Data Guard环境真是一个纠结,目前大体都是采用两种方式,一种是rman备份,一种是duplicate的方式,但是这...

3195
来自专栏轻扬小栈

pogoplug 命令行百度云神器

1052
来自专栏FreeBuf

利用Pentestbox打造MS17-010移动杀器

1、前言 前段时间Shadow Broker披露了 Windows大量漏洞,甚至爆出黑客组织 Equation Group 对于Windows 远程漏洞 MS1...

3627
来自专栏FreeBuf

Nmap 7.50更新:自去年12月来的重大更新

Network Mapper 近日发布了最新更新 Nmap 7.50 ,上一次的更新还需要追溯到2016年12月,而此次的版本上对于对于数百项功能进行了改进。 ...

2884
来自专栏小狼的世界

HP-UX培训学习笔记

HP-UX操作系统全称为Hewlett Packard UniX,是惠普服务器上所有的操作系统。其发源自 AT & T SRV4系统,可以支持HP的PA-RIS...

1512
来自专栏cloudskyme

云计算读书笔记(二)

云计算原理与应用 云计算服务包括:google文件系统GFS,分布式计算编程模形MapReduce,分布式锁服务Chubby,分布式结构化数据表Bigtable...

4316
来自专栏Seebug漏洞平台

Discuz!X 3.4 任意文件删除漏洞分析

作者:LoRexxar'@知道创宇404实验室 日期:2017年9月30日 0x01 简 述 Discuz!X 社区软件,是一个采用 PHP 和 MySQL...

3548
来自专栏解Bug之路

解Bug之路-记一次JVM堆外内存泄露Bug的查找 顶

JVM的堆外内存泄露的定位一直是个比较棘手的问题。此次的Bug查找从堆内内存的泄露反推出堆外内存,同时对物理内存的使用做了定量的分析,从而实锤了Bug的源头。笔...

984

扫码关注云+社区

领取腾讯云代金券