专栏首页腾讯云数据库专家服务MySQL 案例:Threads_running 与慢查询
原创

MySQL 案例:Threads_running 与慢查询

背景

年前本应该是回顾一年工作和收尾的阶段,奈何各种促销,活动都等着春节,因此也遇到了不少的问题,回顾了一下最近遇到的问题,发现有好几个问题比较类似,正好整理一下,作为年前收尾的案例吧。表现上都是数据库假死,无响应,发生的场景有较高的业务压力到来时,也有业务正常运行的时候,突然就出现问题了。

问题描述

由于腾讯云数据库 MySQL 本身是有故障检测和高可用机制的,这几例问题发生的时候,从用户反馈的问题出现的时间点到实际介入排查的时候已经有好几分钟了,但是并没有触发高可用切换,说明这个问题可能并不是数据库自身的故障,也不是一些外部原因导致数据库不可用。

检查一下数据库当时候的状态,发现一个很不正常的指标:

线程数

在问题的时间点附近,连接数的总数量和 threads_running 的数量在短时间内开始飙升,并且接近半分钟的时间内,连监控插件都采集不到数据了。在相同的时间段内,CPU 的使用率(达到 100%)、慢查询数量也跟着飙升。基本上可以确认 CPU 使用率,慢查询,连接数的指标这三者应该是相关联的,可以从这三者入手来分析这次问题的起因。

原因分析

99%的情况下,只要慢查询数量在飙升,那么这个问题就和慢查询脱不了关系,但是案例分析并不能这么草率的下结论。言归正传,既然目标缩小在三个指标上,那么分别考虑一下这三个指标的意义,看看这几个指标的异常会带来什么问题。

CPU

CPU 过高说明 MySQL 的计算能力被占满了,能占用 MySQL 计算资源的只有用户线程和 MySQL 自身的系统线程,这次问题明显和 MySQL 系统线程没什么关系,说明用户线程在大量占用 CPU 的计算资源,而且使用率达到 100% 说明有这个资源争抢的程度是非常严重的,可能会导致原本效率极高的查询因为拿不到 CPU 资源而变得非常缓慢,从高效率的查询变成低效的慢查询,从而产生数据库假死或者 hang 死的现象。

慢查询

慢查询是个老生常谈的问题了,因为查询效率过低,会过度占用 CPU,IO,内存等资源,从而影响到其他正常的查询,从监控指标上来说,CPU 使用率,IO 使用情况,内存使用率都可能会有不同程度的上升,严重的情况下也会引发这几个指标的飙升,导致整个数据库响应缓慢。

连接数

连接数通常是一个引发“实际故障”的指标,例如连接数达到 max_connections 的上限,从而导致整个数据库无法新建连接,程序侧直接是报错的,而不是无响应。threads_running 这个指标,参考官方文档的描述:

The number of threads that are not sleeping.

简单直白的解释,这个指标的飙升代表当时候有大量活跃的用户连接在 MySQL 实例中。而且从这个案例的监控图表来看,是一个飙升的趋势,说明是在短时间内出现了大量的活跃连接。

分析

完成这三个指标的简单分析,可以发现这个三个指标是互相影响:

  1. 慢查询堆积会导致 CPU 使用率过高;
  2. CPU 过高会导致整体的查询效率变低,进而导致一些高效的查询变成慢查询;
  3. 慢查询的执行效率过低,会较长时间的保持活跃状态,所以 Threads_running 这个指标一定会上涨。
  4. 过高的并发突然到来时,大量的查询处于活跃状态会让 Threads_running 这个指标飙升,同时这种尖刺型的高峰也很容易占满 CPU。

看起来三个指标飙升的原因是自洽的,只靠这三个指标并不能真正的判断出问题的原因。那么仔细考虑一下这几个指标飙升的原因为什么会自洽?会发现有一个核心现象,或者说是共性:查询要能够堆积起来。如果:

  1. 堆积起来的查询本来效率就不高,那么这个问题的诱因基本就是慢查询了。
  2. 堆积起来的查询效率很高,那么这个问题的诱因可能是瞬间并发过高,或者是其他的原因导致 CPU 使用率暴涨,然后反过来影响了这些效率很高的查询。

所以检查一下堆积起来的查询,就能比较直白的分辨出问题了,就上图展示的这个案例而言,堆积起来的查询大量使用了 group by 和 order by,查询的效率比较低,所以根因还是慢查询。

拓展一下

如开篇所提及,最近发生的问题有多起,且原因类似。除了这个飙升的案例,还有如下所示的现象。

线程数

threads_running 保持在一个相对平稳的数值,参考前文的分析,可以发现这个现象代表着在平时的时候,就有约 10 个查询长时间处于活跃状态,参考 MySQL 对 CPU 的利用方式,可以预测一个故障场景:业务量继续上升,活跃的查询变多,当高效的查询受影响,效率降低到一定程度的时候,前端程序/用户会因为超时或者响应慢的原因,发起重试,然后因为查询效率降低,这个重试被反复触发,然后引发雪崩效应,慢慢拖垮数据库。

万幸的是多个类似现象的实例仅有一个出现了问题,就是预测的这个场景,其他的都及时优化掉了。

总结一下

虽说仍旧是慢查询的问题,但是从这个案例可以发现另外一个 MySQL 指标,threads_running 的用处:监控活跃的连接,提前发现一些并发量过高和异常的查询,防止数据库堆积查询,产生假死的现象。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • MySQL 案例:analyze,慢查询,与查询无响应

    有时候,遇到同样的 SQL 语句在正式环境的主库和只读实例的执行时间相距甚远时,第一时间就会想到是不是采样信息不一致,导致执行计划不准,从一个高效的查询变成了慢...

    王文安@DBA
  • MySQL 最佳实践:gh-ost 工具使用详解

    MySQL 的同步机制比较单纯,主库上执行过的 DML 和 DDL 会在从库上再执行一次,那么主库上需要 10min 才能执行完的 DDL 理论上在从库至少也要...

    王文安@DBA
  • Mysql 监控性能状态 QPS/TPS

    QPS(Query per second) 每秒查询量 TPS(Transaction per second)每秒事务量 这是Mysql的两个重要性能指标,...

    dys
  • Prometheus + Granafa 构建高大上的MySQL监控平台

    对于MySQL的监控平台,相信大家实现起来有很多了:基于天兔的监控,还有基于zabbix相关的二次开发。相信很多同行都应该已经开始玩起来了。我这边的选型是Pro...

    Bug开发工程师
  • zabbix3.4监控mysql服务器性能 原

    (adsbygoogle = window.adsbygoogle || []).push({});

    拓荒者
  • MySQL很慢... 怎么破??

    MySQL性能慢,多半是SQL引起的(慢查询日志会把执行慢的SQL,一五一十的记录下来,就像你的身体一样诚实..)需要根据慢查询日志的内容来优化SQL。

    田帅萌
  • MySQL慢查询(一) - 开启慢查询

    转载自https://www.cnblogs.com/luyucheng/p/6265594.html

    allsmallpig
  • MySQL节前巡检要点

    首先看 CPU内存、硬盘io的消耗程度,其中重点是硬盘使用率,要为长假做好准备,避免单位在过年期间业务写入增长,磁盘占满。

    田帅萌
  • MySQL 性能优化技巧

    最近公司项目添加新功能,上线后发现有些功能的列表查询时间很久。原因是新功能用到旧功能的接口,而这些旧接口的 SQL 查询语句关联5,6张表且编写不够规范,导致 ...

    lyb-geek
  • MYSQL CPU 使用率高,怎么查,怎么破

    MYSQL 的CPU 使用率高,干时间长的DB们都会遇到,其实其他的数据库也都是有类似的问题,CPU一升高。大部分DBA 的首要工作就是要看是不是有大事务,大查...

    AustinDatabases
  • Mysql 查看连接数,状态 最大并发数 && 怎么设置才合理

    MySQL服务器的连接数并不是要达到最大的100%为好,还是要具体问题具体分析,下面就对MySQL服务器最大连接数的合理设置进行了详尽的分析,供您参考。  

    wuweixiang
  • MySQL 巡检怎么做

    首先看 CPU 内存、硬盘 io 的消耗程度,其中重点是硬盘使用率,要做好准备,避免厂家期间业务写入增长,磁盘占满。

    wubx
  • Mysql慢查询和慢查询日志分析

    程序员同行者
  • mysql 性能优化方案 (转)

    网 上有不少mysql 性能优化方案,不过,mysql的优化同sql server相比,更为麻烦与复杂,同样的设置,在不同的环境下 ,由于内存,访问量,读写频...

    wangxl
  • MySql慢查询检测与优化

    眼下用的最多的关系型数据库数MySql莫属了,之前也用过其它各种数据库。最近使用MySql一段时间了,突然好奇心下,想看看MySql到底性能如何?刚好最近手上有...

    幽鸿
  • MySQL案例:一个有趣的慢查询问题分析

    前几天,有位客户提了一个慢查询问题,需要这边帮忙分析一下;整个排查过程还是非常有趣,涉及到一些值得关注的知识点,因此在这里记录一下。

    brightdeng@DBA
  • 程序连接数据库响应慢!是 Thread pool 参数捣的鬼吗?

    作者 | haoge0205 数据库版本:percona-mysql 5.6.16 在很长一段时间,都会出现程序连接数据库,出现响应慢的情况,正常在几到几十毫秒...

    企鹅号小编
  • 技术分享 | Online DDL 工具 gh-ost

    爱可生 DBA 团队成员,负责公司 DMP 产品的运维和客户 MySQL 问题的处理。擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。

    爱可生开源社区
  • 开启mysql慢查询

    程序员同行者

扫码关注云+社区

领取腾讯云代金券