首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >5.4.4 数字化运营场景之管理运营

5.4.4 数字化运营场景之管理运营

作者头像
彭华盛
发布2021-12-28 16:27:18
1.1K0
发布2021-12-28 16:27:18
举报
文章被收录于专栏:运维之路运维之路

注:数字化运营场景,主要围绕:运行感知、技术运营、业务运营、管理运营。本篇挑“管理运营”分享。

管理运营方面通常从流程出发,对关键的运维服务流程的工作机制进行数据运营,比如对应急处置、变更管理、监控管理、配置管理等进行数据运营。以下以监控管理为例介绍基于监控指标驱动的数字化运营。

(1)实现思路分析

数字化监控运营管理的目标与监控的“不漏报,少误报,快处理”应该保持一致(也有人将“辅助定位”作为监控的目标,我个人觉得应该将“辅助定位”归为应急管理场景建设,监控专注平台能力建设),主要的思路是建立监控指标基线,对各项监控的覆盖面、响应效率等关系的指标进行在线感知、离线分析,支持运维组织可持续的提升监控运营质量,以支持生产应急处置场景提升应急效率,提升业务连续性。

首先,我们用场景的“人”出发。监控管理涉及高频与低频的用户,找准具体用户进行针对性的监控行为运营分析有助于收获更高的价值。其中,高频用户通常包括:监控工具建设者、事件管理流程经理、一线值班与一线操作员、二线运维工程师;低频用户通常包括:研发与测试工程师、各职能线的决策层。每一类用户的监控数据运营有不同的关注点,本节监控管理的数据运营通常针对的是一线值班与二线运维工程师的运营。当前,这类用户通常有以下痛点:

  • (漏报)反复出现监控漏配置,触发运维底线的合规风险;
  • (漏报)监控策略没有生效,但是没人知道;
  • (漏报)监控工具能力不足,部分监控点无法通过线上工作解决;
  • (误报)误报率过高,引发用户对监控告警的信任问题;
  • (事件风暴)监控要求越来越高,系统架构越来复杂,告警越来越多,产生监控风暴;
  • (迟报)业务人员老是先于监控告警的情况时有发生;
  • (处置时效)监控告警后,一线运维跟进响应不及时;

要解决上述提到的痛点,需要将监控管理数据运营与当前的工作场景相结合。针对一线与二线运维工程师的监控管理的工作场景的“事”主要包括:监控告警的响应与处置;监控策略的新增、删除、调整;增加监控指标;应急过程中使用监控数据辅助定位;基于监控数据的离线分析/复盘等。要应对上面的“事”,运维组织要建立相应配套的工作机制,比如:

建立监控漏报的底线管理。评估监控漏报的运营分析最直接的方法是将监控与事件关联,可以考虑在事前将某个级别的监控报警与事件自动化关联,即告警出来即触发事件;在事中在线将监控报警的处理与事件关联的线上化,即在统一告警处理功能中关联生产事件的产生;在事后的事件复盘中与监控告警进行关联。组织内建立监控不漏报的底线管理机制,要求运维人员发挥主观能动性、积极的增强监控覆盖面,通过将生产事件与监控数据的关联,建立围绕“生产事件监控发现率”的运营指标,围绕系统、应用、系统类型、团队、运维人员等维度,发现突出的漏报问题,持续降低监控漏报率。

建立监控响应时效性的在线督办管理。生产事件处置最核心的要求是减少故障恢复时间,相比故障响应后各团队紧急协同的工作机制,监控响应时效性是一项容易被忽略的环节,时常出现一个故障在复盘时发现监控在半小时前已经报警但未及时响应导致的延误战机。运维需要建立“监控告警响应时长”的指标,围绕系统级别、告警级别等维度,发现监控响应超时情况在线提升督办渠道、升级告警触达的人员(比如上级或服务台)、公示响应超时等策略,在线加快监控告警的响应时效性。

建立监控误报持续优化的例行分析管理。评估监控误报的运营分析可以考虑多种方法,比如:按团队、系统、负责人、监控系统统计告警总数排名,通常能发现突出问题的误报源;将监控告警与故障关联分析,发现与故障无关的监控告警;对监控建立复盘机制,要求标注监控告警的准确性,分析误报监控来源等。这些思路,总结起来是抓典型、公示、增加误报的工作成本。

建立监控对异常发现速度的例行分析管理。加强监控对异常的发现速度,需要将“监控告警的发现时间”与故障复盘中“实际发生时间”关联起来,判断监控是否及时,从而发现是工具层面的不足,还是工具运营上的问题,或是工具使用上的问题,再有针对性的进行提升。

(2)场景要素分析:

基于上述思路,监控管理的数据运营场景不是在一个工作场景中出现,而是以监控性能及告警数据为基础,融入到多个不同的工作场景,按场景5要素可以总结为:

“人”:包括一线值班人员、二线运维工程师、值班经理、团队leader、监控平台研发人员,针对不同的人在场景工具要有不同的任务、看板、消息、流程。

“事”:线上化监控告警实时处置的时效性分析与公示,每日订阅推送的监控告警多维度分析报表及跟进任务,每日各团队盘后监控告警的复盘分析任务,每周或每月订阅推送监控工具运营分析等。

“时间”:包括监控告警发生到响应期间(不定期)、每日盘后总结(定期)、第周或每月例行的运营分析(任务驱动)。

“协同”:协同关注工作机制,将上节分析的内容进行整合总结,可以考虑建立:事中监控响应时效性管理机制、每日盘后复盘工作机制、定期运行分析3个工作机制。

“环境”:此场景工作主要针对盘中值班、二线分析、非现场响应3个环节,环境包括线下ECC值班室、企业IM群房间、监控管理运营场景工具等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档