MySQL主从、字典死锁、连接数的Python监控脚本

最近,公司的系统在天津增加了不少异地容灾,其中就有异地双主 MySQL。由于容灾环境一般只会在出现较大的网络故障或故障演习的时候用到,所以,容灾系统的可用性就只能靠监控了。

对于互联网这种赶鸭式的发展模式,很多公司都没有完善的自动化运维系统。所以,很多时候还得靠自己写脚本。

脚本越写越多,就容易出现混乱、分散难管理的窘状。所以,这次就写了一个 MySQL 的集中监控脚本,后续有新的监控加入也可以非常方便的拓展。

Python 脚本:

#!/usr/bin/python
# MySQL主从集中监控脚本
# 请在MySQL上执行如下语句,将跑脚本的机器授权一个db_monitor账号。
# grant SHOW VIEW,REPLICATION CLIENT,SHOW DATABASES,PROCESS on *.* to db_monitor@'192.168.1.10';
import MySQLdb
import os
import datetime

# 发送一个字符串告警,公司特有告警系统,可以改成其他监控方式,比如短信或邮件
def report_alarm(attr, err_msg):
    os.system('/usr/local/agenttools/agent/agentRepStr %s "%s" >/dev/null' % (attr, err_msg))

# 上报一个数值型告警,也是特有告警系统
def send_repnum(attr, num):
    os.system('/usr/local/agenttools/agent/agentRepNum %s "%s" >/dev/null' % (attr ,num) )

def monitor(db_host):
    try:
        cxn=MySQLdb.connect(db_host, 'db_monitor', '', db='mysql')   
    except MySQLdb.Error, e:  
        try:  
            sqlError =  "Error %d:%s" % (e.args[0], e.args[1])  
        except IndexError:  
            sqlError = "MySQL Error:%s" % str(e)
        report_alarm(36320, sqlError)
    
    #get mysql version
    cur=cxn.cursor()
    cur.execute('select version()')
    for item in cur.fetchall():
        if '5.0.' in item[0]:
            mysql_version = 'low'
        else:
            mysql_version = 'high'
    #show slave status
    cur=cxn.cursor()
    cur.execute('show slave status')
    for item in cur.fetchall():
        replicate_error = item[19]
        if mysql_version == 'low':
            seconds_behind_master = item[-1]
        else:
            seconds_behind_master = item[32]
    #show processlist
    cur=cxn.cursor()        
    cur.execute('show processlist')
    connect_num = len(cur.fetchall()) 
    meta_lock_num = cur.fetchall().count("meta lock")
    cxn.close() 
    return replicate_error,seconds_behind_master,connect_num,meta_lock_num

print datetime.datetime.now()

for host in open('%s/hosts.list'% os.path.dirname(os.path.realpath(__file__))):
    host = host.strip('\n')
    replicate_error = ''
    seconds_behind_master = 0
    connect_num = 0
    meta_lock_num = 0
    replicate_error,seconds_behind_master,connect_num,meta_lock_num = monitor(host)
    try:
        Seconds_behind_master = int(seconds_behind_master)
    except:
        Seconds_behind_master = seconds_behind_master
    print '==============================='
    print 'Infomation of %s' % host
    print "The Num of metalock   : %s" % meta_lock_num
    print "The Num of connection : %s" % connect_num
    # 上报当前连接数
    send = send_repnum(36713, connect_num)
    # 上报字典锁数量
    send = send_repnum(36715, meta_lock_num)
    if len(replicate_error) > 0:
        print replicate_error
        # 如果主从同步出现问题,就发送告警
        report_alarm(36320, '%s: Replicate error' % host)
    elif Seconds_behind_master > 600:
        print "Seconds behid master: %s" % Seconds_behind_master
        # 如果主从延迟超过600s,就发送告警
        report_alarm(36320, '%s: Seconds behind master ge 600' % host)
    #else:
    #   print host + " is OK!"
print '==============================='

用法很简单,只要在脚本同目录新增一个文本文件 hosts.list,一行一个 IP,然后需要在 IP 对应的 MySQL 身上新增一个 db_monitor 账号,用于监控机远程登录 MySQL(见脚本注释部分语句):

其他特性:

①、脚本支持 5.0 和 5.5+ MySQL 版本的 Second behid master 监控,因为新老版本这个参数的位置不一样(鹅厂很多开源软件是非常陈旧的。。。);

②、支持 MySQL 连接失败的监控;

③、支持 MySQL 主从复制的延迟和错误监控

④、支持 MySQL 的连接数和字典锁数监控

⑤、更多监控可以参考继续添加.....

好了,就这么多了,算是给自己一个备忘。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

资源控制在大数据和云计算平台中的应用

本文针对大数据平台中资源控制这个层面来详细介绍资源控制在不同操作系统上的具体技术实现,以及大数据平台和资源控制的集成。

6378
来自专栏生信宝典

Airflow配置和使用

Airflow能做什么 Airflow是一个工作流分配管理系统,通过有向非循环图的方式管理任务流程,设置任务依赖关系和时间调度。 Airflow独立于我们要运行...

4.1K6
来自专栏代码GG之家

Scoops android app多主题架构(三)

白天夜间主题 很多应用都有这个功能,可以选择白天和夜间模式,给用户更好的体验。为此,系统也提供了一种机制,来实现此功能。 模式主要分为四种 夜间 白天 跟随系统...

1947
来自专栏知识分享

9-开发板接入小五物联实现远程控制(Wi-Fi模块)

这一节为教程最终版功能演示,现在不必深究,早晚自己全部都会实现的(静静的跟着我学哈)

2192
来自专栏草根专栏

使用Identity Server 4建立Authorization Server (1)

本文内容基本完全来自于Identity Server 4官方文档: https://identityserver4.readthedocs.io/ 官方文档很详...

52310
来自专栏杨建荣的学习笔记

从零开始串联Python前后端技术

运维开发流程概述 是我们参与到其中的一个入口,我们需要了解运维开发的一些环节,还有运维开发的一些技术基础。我们通过一个实例来做演示,基本的需求就是从数据库中查...

3206
来自专栏信安之路

浅谈针对rdp协议的四种测试方法

渗透测试通常情况下是以功能为导向的。一组协议通常能支持、实现一种功能。本文浅谈一下针对 RDP 协议的几种测试方法,也就是针对远程桌面这种功能的利用。本人水平有...

8150
来自专栏高性能服务器开发

+从零实现一款12306刷票软件1.2

当然,这里需要说明一下的就是,由于全国的火车站点信息文件比较大,我们程序解析起来时间较长,加上火车站编码信息并不是经常变动,所以,我们我们没必要每次都下载这个s...

2032
来自专栏较真的前端

客户端会话级存储:session Storage与session Cookie的区别

2404
来自专栏沃趣科技

Oracle数据库性能障碍分析利器:SYSTEMSTATE DUMP介绍

作者 孟庆辉 沃趣科技数据库工程师 当数据库出现严重的性能问题或者hang了的时候,我们非常需要通过systemstate dump来知道进程在做什么,在等待...

3727

扫码关注云+社区

领取腾讯云代金券