高可用失灵:交换机导致Oracle集群故障致机场停运

最近日本的一则数据库故障引发了全日航空(ANA)航班停运,被广泛关注。

据日本《产经新闻》3月22日报道,日本全日空航空公司(ANA)的国内航班系统22日8时20分开始发生故障,导致旅客无法办理登机手续,目前正在逐步恢复。但截至22日下午2时,已有超过120架航班停航。 今年2月24日,ANA国内航班系统就曾经发生故障,但30分种后修复,导致一部分航班晚点起飞。在2007年5月27日和2008年9月14日,也出现超过400架航班晚点或停航的故障。报道称,此次故障导致在羽田机场、大阪机场、那霸机场等出发的飞机出现延误。目前正在调查原因。

近日,网友提供了此次故障进一步的详细原因

【全日空发生系统故障120个航班被取消】日本全日空航空公司(ANA)的国内航班系统3月22日发生故障,乘客无法办理登机手续、订票系统也瘫痪。发生ORA-29740错误,Oracle节点被踢出集群,若干数据库实例宕掉。可能是网络交换机故障引起的集群心跳信号传递异常,最后更换了交换机。

在Oracle的手册中,对于ORA-29740描述如下:

Description:Evicted by member string, group incarnation string Error Cause:This member was evicted from the group by another member of the cluster database for one of several reasons, which may include a communications error in the cluster, failure to issue a heartbeat to the control file, etc. Action:Check the trace files of other active instances in the cluster group for indications of errors that caused a reconfiguration.

其主要描述是指:RAC节点被集群中其他节点因故驱逐。

正常情况下,Oracle的RAC多节点就是为了实现业务连续性和高可用,一个节点故障通常不会引起整个数据库不可用。但是在这次事故中,显然服务全部失去。网友透漏的消息称:可能是网络交换机故障引起的异常,最后更换了交换机。

进一步的消息指出:

导致全日空(ANA)120个航班被取消的票务系统故障是CISCO交换机引起的】造成Oracle Cache Fusion的UDP通讯异常,4节点的Oracle RAC无法重组集群。本来交换机是有主备设计的,但是主交换机并未彻底坏掉,而是处于不稳定状态,备用交换机不知道主交换机出了故障所以没有接管。

以上爆料的消息指出,交换机故障,处于不稳定状态,备用交换机未接管,导致Oracle RAC集群无法重组,故障蔓延至全局。

在Oracle RAC集群环境中,类似故障最常见的情形是,当实例间发生通讯故障等,故障实例不能发送心跳信息(heartbeat)时,为避免数据损坏,失败节点会执行自我驱逐(Evict Self)以脱离集群组,节点驱逐的过程会抛出ORA-29740错误,记录在Alert日志中,并生成跟踪文件。

在节点驱逐之后,数据库还需要实现集群重配置,与此相关的概念有Instance Membership Recovery (IMR),Instance Membership Reconfiguration.常见的故障信息类似如下:

opiodr aborting process unknown ospid (75852) as a result of ORA-28 LMON (ospid: 767522) detects hung instances during IMR reconfiguration LMON (ospid: 767522) tries to kill the instance 2. Please check instance 2’s alert log and LMON trace file for more details. USER (ospid: 32900426): terminating the instance due to error 481 Errors in file /oracle11g/PROD00/PROD001/trace/PROD001_lmon_767522.trc: ORA-29702: error occurred in Cluster Group Service operation System state dump is made for local instance System State dumped to trace file /oracle11g/PROD00/PROD001/trace/PROD001_diag_9373174.trc Instance terminated by USER, pid = 32900426

如果检查LMON进程可以看到类似如下信息:

kjxgmrcfg: Reconfiguration started, type 6 CGS/IMR TIMEOUTS: CSS recovery timeout = 31 sec (Total CSS waittime = 65) IMR Reconfig timeout = 75 sec CGS rcfg timeout = 85 sec kjxgmcs: Setting state to 274 0. kjxgmpoll: CGS state (274 1) start 0x51482867 cur 0x514828bc rcfgtm 85 sec kjxgmpoll: the CGS reconfiguration has spent 85 seconds. kjxgmpoll: terminate the CGS reconfig. Error: Cluster Group Service reconfiguration takes too long LMON caught an error 29702 in the main loop error 29702 detected in background process ORA-29702: error occurred in Cluster Group Service operation

ANA的系统故障持续超过5个小时,在国内重要企业都应该算得上是重大事故。虽然Oracle RAC集群是久经考验的高可用架构,但是其单点数据存储和集中式架构在极端情况下仍然可能遭遇单点,所以构建可切换的灾备系统或者降级支持系统,对于核心企业业务架构来说是必不可少的。

在当前的企业级架构中,通过双活、灾备、读写分离等解决方案都可以作为数据库高可用的有益补充。云和恩墨持续为提升用户系统高可用而提供不断演进的技术解决方案!

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2016-04-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏玄魂工作室

MOSEC议题解读 | PWN2OWN shannon基带破解之旅

基带漏洞威胁最大的是可以通过OTA(空中接口)利用,即通过发射加载漏洞利用代码的无线电波,从空中接口利用漏洞,在受害者无任何感知的情况下,远距离对受害者进行攻击...

1513
来自专栏北京马哥教育

最全Linux的发行版简介,一文读懂各发行版之间的联系和区别

? 发行版及版本比较 三大家族: ? Fedora是基于RHEL,CentOS,Scientific Linux, 和Oracle Linux的社区版本。相比...

5287
来自专栏顶级程序员

开源软件原来都这样命名的!Python最独特,Debian最浪漫,PHP简单粗暴......

如我们平常所看到的品牌名称一样,例如“Kleenex”或“百事可乐”,开源世界也拥有自己独特的名称,这些名称背后真正的起源,我们通常并不在意。

894
来自专栏FreeBuf

帮女神修手机的意外发现:隐匿在iOS文件系统中的隐私信息

说明: 1. 本文仅供安全学习及教学用途,提及的部分技术带有攻击性,请确保合法使用。 2. “这些都不是我干的,我就负责说出来。” 3. 图片仅供参考。 4. ...

3829
来自专栏北京马哥教育

动画演示9个超有趣的Linux命令

1655
来自专栏机器人网

牛人教你DIY!用树莓派 Zero做飞控图传

虽然可以买到商品成品,且会比我们做出来的东西更美观,性能指标更强,但是在折腾中学习,按照自己的需求进行优化改动,享受创造的喜悦,不正是创客精神嘛。 本项目使用手...

5148
来自专栏Linuxer的专栏

宋宝华:火焰图 全局视野的 Linux 性能剖析

火焰图的火焰首先来自于根,然后以火苗的形式往上面窜。可以把从靠近地面的根到顶上的每个火苗,想想成一个调用栈。由于火苗有很多根,这正好也和现实生活中程序的执行逻辑...

2200
来自专栏.NET技术

.net core实践系列之短信服务-架构优化

通过前面的几篇文章,讲解了一个短信服务的架构设计与实现。然而初始方案并非100%完美的,我们仍可以对该架构做一些优化与调整。

832
来自专栏炉边夜话

究竟是测试重要,还是工程重要?

近期一直在负责IPV6一致性测试的工作,也负责解决一些问题,但今天碰到一件匪夷所思的事情,让人不可理解。

752
来自专栏FreeBuf

打印机安全研究(一):不容乐观的网络打印机安全状况

打印机是人们在生活和办公中经常使用的电子设备,家庭、办公室、公司、政府单位、医院、学校......几乎每一个单位和机构都会使用打印机。从安全的角度来看,由于打印...

2915

扫码关注云+社区