前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >拍脑袋的数据库运维指标

拍脑袋的数据库运维指标

作者头像
jeanron100
发布2021-08-06 13:18:08
2.5K0
发布2021-08-06 13:18:08
举报

之前对数据库恢复做了相对全面的整合,为了校验数据恢复质量,我们开启了近半年的数据随机恢复测试,也就是说为了验证数据库的恢复质量和效率,我们会每天从备份机里面随机选取12个数据库实例进行数据恢复测试,如果数据启动失败或者回放binlog失败,则会标记为恢复失败。

在早期的指标设定中,我们很快达到了从70%改进到了90%,按照这个步调,想达到更高的目标看起来指日可待,比如我拍脑袋指定了一个指标99.9%,但是尴尬的是,以月份为单位,总是会在有那么1个实例恢复失败,但是失败的场景又难以复现,所以一直没有实现这个目标。

有时候在想到底是为什么,今天突然琢磨了下,原来就是一道很简单的数学题。

假设我们每天随机恢复12次,如果允许1次失败,那么需要多少天才能达到99.9%

假设成功率为S,所以可以很快得到关系:

12*n/(12*n+1)=S

得到n=S/(12-12S),我们把S=0.999带入

得到n=83

这是什么概念,也就意味着我需要在将近3个月以内只能有1次失败,才能保证达到这个指标,目前来看,不是达不到,而是目标最开始就完不成,或者完成的代价极高。

换种思路,我们可以调整恢复次数,那么每天恢复多少次才能在1个星期后达到99.9%的成功率。

同理计算可得,每天需要恢复近142次,才能满足这个指标,同样这个指标也是高得离谱,我们按照1个月来计算,每天也需要30次左右才可以。

所以拍脑袋的指标真是啪啪打脸,还是得做一个简单的计算来坐下评估,当然对于这个问题我觉得可以基于统计学的角度来做更进一步的分析,因为结合实际的业务场景,有很多改进的角度,我会在评估后给出一个可行的指标。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 杨建荣的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档