计算公式:系统稳定性计算公式(年度): (100 - (故障分钟数 / 全年的分钟总数 * 100)) %
说明: 期望一年能达到的系统稳定性为: 99.99%,允许出现问题的最长时间是:52.56分钟;
期望一个季度能达到的系统稳定性为:99.99%,允许出现问题的最长时间是:17.28分钟。
1.1 存储资源,计算资源容量使用率报告,75%报备,80%扩容;
1.2 集群状态变化次数,例如当集群中存在频繁的节点变更(NN, RM);
1.3 并发任务数,任务查询平均时长,任务资源(core, memory),IO信息;
1.4 计算任务在任务队列中的等待时间;
1.5 慢查询的任务数量(超过2h、4h、6h),触发熔断的查询数量(time out, exit等)和触发熔断的查询消耗的内存大小;
1.6 诊断或者巡检报告产生耗时时长。
2.1 有效性
2.1.1 监控数据采集、数据上报有效:数据采集失败、数据不能上报监控agent的监控采集器每天以报表形式发送到运维负责人,运维负责人进行修改;
2.1.2 报警发送方式(如邮件等)、报警接收人有效:每天统计短信、邮件及其他渠道的报警发送量,有异常变化(突增或者为0)以报表通知到运维负责人修改;
2.1.3 报警1分钟内到达:对自身发送器进行监控,消息堆积时及时处理解决。
2.2 报警收敛
报警重试次数,集群报警合并,避免过多的报警会让人麻痹,进而忽略掉了真正有效的报警。
2.3 缩短故障处理时长,异常响应处理时长(0.5h)
应用运维、系统运维、所有角色一主一备(AB角)。
ps: 厂商责任机制:如果有故障时长,则给予对应102.4倍服务时长的补偿。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。