【全局出发,追根溯源】一则集群故障案例分析

作者简介:

董冰,混迹DBA圈子十余载的闲云野鹤,曾服务过政府行业、银行数据中心、互联网游戏上市公司,辗转蛰伏于中国铁塔,励志做一个社会主义的螺丝钉。

故障场景描述:

业务系统和监控同时反映11G的两节点RAC数据库无法连接(非负载均衡,优先连接节点1),DBA尝试登陆节点1服务器,SSH无响应,尝试登陆节点2,成功,发现节点2状态正常,建议应用重启连接池,尝试主动连接节点2先恢复生产,随后尝试对节点1故障进行恢复分析。

故障原因分析:

查看RAC alert日志,发现RAC Brain Split把节点1服务器强制重启了。

一般这个时候,大部分DBA会开始深挖各种集群日志,把发现的异常代码拿到support.oracle.com上去寻求支持。这对RAC alert日志的分析做经常会耗费大量精力和时间,结果往往会陷入一连串不可描述的BUG案例,比如:

在本案中,DBA没有对RAC的日志做过多的比对分析,而是把精力放在复原节点1服务器崩溃前的故障场景上。好在现场有各种手段对数据库及服务器的运行状态进行了监控和记录,很方便进行场景推演。

首先,查看数据库的运行监控图表,发现在节点1崩溃前,数据库IO负载有非常明显的增加:

引起数据库逻辑读和物理读飙升的原因基本的是因为糟糕的SQL代码被突然并发调用或者是因为异常的维护操作造成索引失效,一般伴随的是大量操作系统CPU/内存/IO资源的消耗。SQL的事先放放,继续看看操作系统方面的变化。

先看内存,发现节点1宕机之前有物理内存大量消耗的趋势:

再看CPU 负载,在故障时间点前(16:00)也有较明显的升高趋势:

另外还通过ZABBIX查看了包括网卡、IO负载等信息。很遗憾的是,由于从16点开始节点1服务器就无法响应了,外部监控采集到的信息出现的断档。虽然有趋势但是没有绝对的证据显示资源最终的消耗情况。

幸好,我们在服务器本地还部署了OSWatcher来作为服务器信息记录的手段。这样在外部访问失效的情况下,我们可以在本地获取到更多服务器崩溃前的信息。

我们在故障时间点的TOPVMSTAT快照中看到了节点1临终前的状态:

1、物理内存消耗殆尽

2、开始使用SWAP分区

3、集群守护进程开始出现异常:GIPCD.BIN消耗大量CPU

4、操作系统CPU system time飙升

5、从16:06到16:16服务器夯死,随后服务器重启

分析到这里基本上就可以对节点1重启的故障进行一个场景推演了:

数据库爆发大量性能低下的SQL--> 数据库消耗了大量服务器资源-->服务器物理内存资源耗尽-->数据库集群软件状态异常-->系统进程夯死-->服务器重启

现在回到开始关于运行稳定的生产系统突然出现高负载SQL的话题,一般遇到这个情况,可以尝试先排除在关键业务表上是否出现失效的索引,因为遇到过在线上生产系统使用SQLLOAD加载数据导致索引失效引发业务崩溃的场景,你都不会知道前台开发人员会做什么事情。

经验总结:

建议DBA在处理数据库异常的问题时,跳出对数据库本身异常日志内容分析的范畴,要从操作系统、服务器硬件甚至更高的视角来分析整个异常现象。因为在很多公司,DBA和SA各司其职,界面分工比较清楚,但是在处理尤其是集群环境的异常时,却很容易发生互相甩锅的情况,最后失去了发现问题源头的机会。

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2016-11-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序猿DD

都在说微服务,那么微服务的反模式和陷阱是什么(一)

译者:程超 译文:http://www.jianshu.com/p/3986239138fe 一、数据驱动的迁移反模式 微服务会创建大量小的、分布式的、单一用途...

1779
来自专栏Java架构

几种常见的微服务架构方案,2018年是否还一如既往的火

1725
来自专栏服务端技术杂谈

微服务系列-架构

模块即服务; 微服务使用库,库定义成内存里面的调用,微服务定义成web请求或远程调用; 独立可部署; 接口调用; 缺点是远程调用比本地重很多; 按业务逻辑进行分...

2897
来自专栏Albert陈凯

mysql分布式数据库中间件对比mysql分布式数据库中间件对比

mysql分布式数据库中间件对比 目前数据库中间件有很多,基本这些中间件在下都有了解和使用,各种中间件优缺点及使用场景也都有些心的。所以总结一个关于中间件比较的...

4367
来自专栏搜云库

什么是微服务架构

什么是微服务? 微服务(Microservices Architecture)是一种架构风格,一个大型复杂软件应用由一个或多个微服务组成。系统中的各个微服务可被...

18810
来自专栏IT技术精选文摘

高并发大容量NoSQL解决方案探索

1133
来自专栏JAVA高级架构

电商平台备战促销季的运维秘诀——高可用服务层

852
来自专栏CSDN技术头条

基于Storm的实时计算应用实践

有赞使用storm已经有将近3年时间,稳定支撑着实时统计、数据同步、对账、监控、风控等业务。订单实时统计是其中一个典型的业务,对数据准确性、性能等方面都有较高要...

2678
来自专栏原创

浅析开源数据库MySQL架构

数据库是所有应用系统的核心,故保证数据库稳定、高效、安全地运行是所有企业日常工作的重中之重。数据库系统一旦出现问题无法提供服务,有可能导致整个系统都无法继续工作...

44512
来自专栏原创

高并发大容量NoSQL解决方案探索

1048

扫描关注云+社区