前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >记一次腾讯云cdb主库异常切从原因剖析

记一次腾讯云cdb主库异常切从原因剖析

原创
作者头像
benyukiwang
修改2019-07-01 11:06:36
8010
修改2019-07-01 11:06:36
举报
文章被收录于专栏:数据库&大数据数据库&大数据

客户最初报障数据库cdb实例出现连接不通现象,有近1-2分钟的监控断点,同时几十秒内无法访问。

这里首先排查发现目前是从读写,报障时间点时候触发主从切换了,但主从切换的原因需要分析下。

分析当时是宿主机有拒绝请求,发现当时线程过高

image.png
image.png

从实例当时的log,看不出什么问题,排查当时连接有个飙升,怀疑是短时间的大量连接,造成mysql拒绝新连了。

但客户不是很认可是新增连接导致的切换,查看参数实例的back_log是210 , 有点小。

image.png
image.png

back_log的文档说明

https://dev.mysql.com/doc/refman/8.0/en/server-system-variables.html#sysvar_back_log

back_log的作用是MySql的连接数达到max_connections时,新来的请求将会被存在back_log中,而这个210,是cdb购买时候的默认值,没有优化过。

拼多多之前也发生过类似的场景,但后来要抓现场的时候,没有复现。

当时业务是否在做大表的DDL, 这个事务如果是处理不好,很容易导致连接爆涨。

了解到客户在发生异常之前没有做其他的操作,这个数据库是用于企业内部打卡的,公司规模有1万人左右,但是班次是弹性的,且那个时间点打卡的人数是比较正常的,业务压力不大。

不过发现 ALTER TABLE employee ADD Remark VARCHAR(512) NULL

同时看binlog,故障切换时有这个DDL在跑。说明业务还是有事务在跑。

给出解决方案:调大back_log后观察,客户暂无后续报障。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档