MySQL 数据库高负载故障分析

紧急处理

第一: 先限制Innodb的并发处理.如果innodb_thread_concurrency = 0 可以先改成 16或是64 看机器压力,如果 非常大,先改成16让机器的压力下来,然后慢慢增达,适应自已的业务. 处理方法:

set global innodb_thread_concurrency=16;

第二: 对于连接数已经超过600或是更多的情况,可以考虑适当的限制一下连接数,让前端报一下错,也别让DB挂了. DB在了,总是可以用来加载一下数据,当数据加载到了nosql里了,慢慢的DB压力也会降下来的. 限制单用户连接数在500以下. 如:

set global max_user_connections=500;

(MySQL随着连接数的增加性能会是下降的,这也是thread_pool出现的原因) 另外对于有的监控程序会读取information_schema下面的表的程序可以考虑关闭下面的参数 innodb_stats_on_metadata=0

set global innodb_stats_on_metadata=0;

故障分析

注:一般mysql的配置文件都是初始配置好的,紧急处理的方法有可能不适用,这事就要分析突然产生高负载的原因有哪些?

  • 分析思路:
1、查看mysql的slow.log,看是否出现死锁,及其他报错
2、show processlist; 查看mysql都有哪些连接,判断这些connect是否正常
3、通过使用htop、dstat等命令查看负载高来源是CPU还是IO

htop、dstat 使用

epel源下载htop

# rpm -ivh http://mirrors.aliyun.com/epel/epel-release-latest-6.noarch.rpm

yum install htop dstat -y

htop是加强版的top,这里对其使用不错介绍

  • dstat常用命令
dstat -l -m -r -c  --top-io --top-mem --top-cpu
  • tcpdump使用

抓包分析,默认mysql端口为3306

tcpdump -i eth0 -A -s 3000 port 3306 > /tmp/sql.log
  • 引用perl
tcpdump -i eth0 -s 0 -l -w - dst port 3306 | strings | perl -e '
while(<>) { chomp; next if /^[^ ]+[ ]*$/;
if(/^(SELECT|UPDATE|DELETE|INSERT|SET|COMMIT|ROLLBACK|CREATE|DROP|ALTER)/i) {
    if (defined $q) { print "$qn"; }
    $q=$_;
    } else {
    $_ =~ s/^[ t]+//; $q.=" $_";
    }
}'

# 这里引用,找到最频繁的SQL语句
  • 使用strace 或 pstack查看具体进程状态

查看系统调用是否有问题,进程是否堵塞,是否有Broken pipe

strace -p 22222
  • pt-query-digest

分析mysql慢日志,查看哪些sql语句最耗时

pt-query-digest db-slow.log

总结: 有时候不需要全部操作就能找到问题的所在,这次故障中个人是通过show processlist找到不正常的连接,查看是从哪里连过来的,然后到特定的服务器上,查看指定的那个服务状态是否正常。

故障分析:后端API服务抛异常,导致一个SELECT频繁去执行,先重启后端API,然后分析报错,找相关人解决。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏乐沙弥的世界

Linux/Unix shell 脚本清除归档日志文件

      对于DEV以及UAT环境,有些时候,数据库需要处于归档模式,但并不需要备份数据库。因此,archive归档日志不停的增长导致磁盘空间被大量耗用。对于...

984
来自专栏皮振伟的专栏

[linux][bcache]bcache导致的xfs文件系统错误问题分析

前言: 频繁见到xfs报错,文件系统出现了破损。 目前有两种情况下使用xfs: 其一,在物理机上使用启用了bcache的blk设备,格式化成xfs直接使用,这种...

3217
来自专栏Felix的技术分享

xlog接入方案

3283
来自专栏C/C++基础

C++实现简易log日志系统

在软件开发周期中,不管是前台还是后台,系统一般会采用一个持久化的日志系统来记录运行情况。

2152
来自专栏杨建荣的学习笔记

通过shell脚本来查看Undo中资源消耗高的sql(r2笔记88天)

在查看undo的使用率的时候,在Undo_management为auto的时候,经常会看到undo自己在不断的伸缩扩展,自我调节。 有时候看到Undo收缩的很紧...

2634
来自专栏个人分享

Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析

yum install autoconfautomake libtool cmake

1182
来自专栏实用工具入门教程

如何部署 ElasticSearch 服务

Elasticsearch是一个实时分布式搜索和分析数据的平台。其易使用,具有强大的功能和可扩展性。Elasticsearch支持RESTful操作。这意味着您...

541
来自专栏北京马哥教育

Redis集群及管理讲解

一、为什么要弄redis集群 集群技术是构建高性能网站架构的重要手段,试想在网站承受高并发访问压力的同时,还需要从海量数据中查询出满足条件的数据,并快速响应,我...

3437
来自专栏北京马哥教育

这8种命令都不会,还算什么Linux运维!

01 查看系统内核版本 显示了系统名称(CentOS)和内核版本(release 6.5) The file /etc/issue is a text file...

3447
来自专栏Hadoop实操

CDH5.14和CM5.14的新功能

Fayson在2017年的10月12日介绍了《CDH5.13和CM5.13的新功能》,今天1月26日,Cloudera正式发布了CDH5.14。三个月零几天,2...

1.2K6

扫码关注云+社区