前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【全局出发,追根溯源】一则集群故障案例分析

【全局出发,追根溯源】一则集群故障案例分析

作者头像
数据和云
发布2018-03-06 16:42:42
1.2K0
发布2018-03-06 16:42:42
举报
文章被收录于专栏:数据和云数据和云

作者简介:

董冰,混迹DBA圈子十余载的闲云野鹤,曾服务过政府行业、银行数据中心、互联网游戏上市公司,辗转蛰伏于中国铁塔,励志做一个社会主义的螺丝钉。

故障场景描述:

业务系统和监控同时反映11G的两节点RAC数据库无法连接(非负载均衡,优先连接节点1),DBA尝试登陆节点1服务器,SSH无响应,尝试登陆节点2,成功,发现节点2状态正常,建议应用重启连接池,尝试主动连接节点2先恢复生产,随后尝试对节点1故障进行恢复分析。

故障原因分析:

查看RAC alert日志,发现RAC Brain Split把节点1服务器强制重启了。

一般这个时候,大部分DBA会开始深挖各种集群日志,把发现的异常代码拿到support.oracle.com上去寻求支持。这对RAC alert日志的分析做经常会耗费大量精力和时间,结果往往会陷入一连串不可描述的BUG案例,比如:

在本案中,DBA没有对RAC的日志做过多的比对分析,而是把精力放在复原节点1服务器崩溃前的故障场景上。好在现场有各种手段对数据库及服务器的运行状态进行了监控和记录,很方便进行场景推演。

首先,查看数据库的运行监控图表,发现在节点1崩溃前,数据库IO负载有非常明显的增加:

引起数据库逻辑读和物理读飙升的原因基本的是因为糟糕的SQL代码被突然并发调用或者是因为异常的维护操作造成索引失效,一般伴随的是大量操作系统CPU/内存/IO资源的消耗。SQL的事先放放,继续看看操作系统方面的变化。

先看内存,发现节点1宕机之前有物理内存大量消耗的趋势:

再看CPU 负载,在故障时间点前(16:00)也有较明显的升高趋势:

另外还通过ZABBIX查看了包括网卡、IO负载等信息。很遗憾的是,由于从16点开始节点1服务器就无法响应了,外部监控采集到的信息出现的断档。虽然有趋势但是没有绝对的证据显示资源最终的消耗情况。

幸好,我们在服务器本地还部署了OSWatcher来作为服务器信息记录的手段。这样在外部访问失效的情况下,我们可以在本地获取到更多服务器崩溃前的信息。

我们在故障时间点的TOPVMSTAT快照中看到了节点1临终前的状态:

1、物理内存消耗殆尽

2、开始使用SWAP分区

3、集群守护进程开始出现异常:GIPCD.BIN消耗大量CPU

4、操作系统CPU system time飙升

5、从16:06到16:16服务器夯死,随后服务器重启

分析到这里基本上就可以对节点1重启的故障进行一个场景推演了:

数据库爆发大量性能低下的SQL--> 数据库消耗了大量服务器资源-->服务器物理内存资源耗尽-->数据库集群软件状态异常-->系统进程夯死-->服务器重启

现在回到开始关于运行稳定的生产系统突然出现高负载SQL的话题,一般遇到这个情况,可以尝试先排除在关键业务表上是否出现失效的索引,因为遇到过在线上生产系统使用SQLLOAD加载数据导致索引失效引发业务崩溃的场景,你都不会知道前台开发人员会做什么事情。

经验总结:

建议DBA在处理数据库异常的问题时,跳出对数据库本身异常日志内容分析的范畴,要从操作系统、服务器硬件甚至更高的视角来分析整个异常现象。因为在很多公司,DBA和SA各司其职,界面分工比较清楚,但是在处理尤其是集群环境的异常时,却很容易发生互相甩锅的情况,最后失去了发现问题源头的机会。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据和云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
负载均衡
负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档