前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >风险感知(二)场景设计5要素

风险感知(二)场景设计5要素

作者头像
彭华盛
发布2022-11-16 20:35:19
9470
发布2022-11-16 20:35:19
举报
文章被收录于专栏:运维之路运维之路

本篇接《风险感知(一)》,将采用数字化运维场景设计方法梳理风险感知场景的一些思路。分析前,先回顾一下场景设计的一些要点:

  • 场景的基础是实际运维工作,要用“连接、数据、赋能”的数字化思维重塑场景
  • 按“人、事、时间、协同、环境”5要素梳理场景
  • 场景强调多角色“组织”高效协同,是对线下流程的在线化,平台赋能场景生产力

再看看风险感知场景的要点:

  • 在线感知风险状况,即时健康质检
  • 赋能专家主动构建、调优风险感知模型
  • “数据指标+算法策略”(点)=》编排组装主题(面、兼顾非知风险)
  • 建立风险识别(感知)、决策、执行闭环

以下从“人、事、时间、协同、环境”5要素看看场景。

1.人

通常会有几个角色:

  • 一线运维专家:高频用户,具体风险感知指标、策略、任务的设计与调优者,指标生产数据模型、源数据处理规则的提供者,落实常态化风险处理,以及识别风险后的风险定界、处理、跟踪。
  • 运维管理决策:中频用户,含纵向多个层级的管理决策层,以及横向风险管理相关的流程经理,了解全局与重要信息系统健康状态,支持风险感知工作机制的落地,不仅是用户还提供资源。
  • 兄弟团队(研发、测试):中频或低频用户,从各自专业角色在线感知风险状况,埋点数据。
  • 工具团队建设者:中频用户,“采、存、算、管”数据开发,挖掘识别真实的用户需求,设计推动配套工作机制落地,开发迭代场景工具。
  • 机器人:虚拟用户,特定职责的机器人,处理辅助性、重复性、操作性的工作。

这些角色,从场景的设计上,关注度自下而上递增。比如,对于最重要的一线运维专家,可以考虑从以下问题切入梳理:

  • 【痛点】一线运维专家当前是否有主动评估运行风险的工作环节,遇到什么痛点?【期望】组织是否有主动评估运行风险的期望?
  • 【工作量】在现在被动响应式工作基础上,给一线运维专家增加主动运行评估的工作事项是否可行?
  • 【聚焦】如第3点不可行,增加重要交易系统的主动分析评估的工作事项是否可行?
  • 【机制、连接】如让一线运维专家主动分析评估工作如要成为常态化,需要配套增加哪些流程机制?
  • 【机制、连接】是否可以将主动分析评估的能力融入到一线运维已有的工作流程?
  • 【连接】运行分析涉及哪些角色,这些角色如何利用流程、数据、ChatOps连接?
  • 【数据】主动分析评估除了是某时刻切面的分析,是否可以实时高频的感知?
  • 【赋能】如何吸引一线运维专家,让他们能够主动的去增加分析指标与指标策略?
  • 【赋能】如何让一线运维专家低成本的参与到数据采集与模型构建的工作上?
  • 【归类】可以梳理哪些主题的运行风险感知?
  • 【闭环】运行风险识别后,如何确保风险得到处置?

基于上述问题如果梳理清楚,一个面向一线运维专家的风险评估场景的基本需求分析就形成了,同理其他角色的梳理。

2.事

运行风险感知分析建立在一个集合,并不断递归分解的分析主题而成,可以将每一个主题的实施内容理解为具体的事。不同主题的事,在一定程度上具备相似的组件,比如基于一个底层运维数据平台,往上指标体系、指标异常检测、指标编排、任务管理、识别风险后的闭环流程等基本功能。但同时也要认识到,上层不同主题的事很难通用化,极可能是需要定制化构建,比如:

  • 周期性的(季度、月度)重要信息系统性能管理、容量评估。
  • 周期性的(季度、月度)数据库系统性能管理、容量评估。
  • 交易系统盘前运行状态感知分析。
  • 互联网终端交易系统盘前运行状态及客户体验分析。
  • 变更窗口后首个工作日运行风险分析。
  • 某新建系统上线后试运行分析。
  • 每日重要交易系统盘后风险评估。
  • ……

3.时间

场景来源于电影。在视频领域,通常按每秒25张或30张图片组合成一个视频画面,对一段时间的视频画面进行剪辑形成一个场景,多个场景组合成为一部电影。时间对于场景的设计十分重要,通常包括时刻、阶段性、实时三种。时刻是某个特定时点,将基于一个快照数据进行分析;阶段性是针对某个开始到结束的时段进行分析;实时是针对即时、在线的感知,与监控相比,风险分析关注面,监控关注点。

时间与前面的事要素一一对应,以“某新建系统上线后试运行分析”主题的“事”为例,时间包括:新系统上线试运行期间,每天盘后分析;新系统上线后每周最后一个工作日。试运行分析非实时的感知异常,所以上述两个时点属于阶段性的分析。在场景设计上,可以考虑建立一个新建系统上线后试运行分析的主题,并为负责人分派特定时间完成的分析任务,在任务中提供风险指标及异常检测数据,人可以提出相应的专家分析意见。

4.协同

协同要考虑建立常态化的运行风险评估的工作机制,在工作机制下确保场景下多个角色能够顺畅的协作,场景目标能够有效的落地。比如在阶段性评估主题中的风险处置任务,涉及任务的分派,任务的处理时效性管理及任务的跟踪等。在实施上,协同关注人、事、机器的在线协同,可以利用流程、ChatOps、数据指标、任务管理、异常统一告警等作为多维度的连接手段,建立数字化的风险感知协同机制。

5.环境

环境包括显性环境与隐性环境。显性环境包括线下协同与线上工具,比如运行风险评估的环境主要以线上为主,评估涉及的数据生产基于运维数据平台,指标及任务的管理基础风险评估任务管理,评估分析过程基于评估场景,评估涉及的风险或问题采用在线的问题或任务管理,并利用ChatOps等手段进行触达连接。隐性环境重点指风险感知评估配套的工作流程机制,流程机制是为了场景设计能够有效落地提供的约束与保障,是为了明确场景协同人员的责权利。流程机制又包括存量的ECC管理办法、监控管理办法等配套的规范或管理要求,以及新增主题涉及的协同机制,比如前面提到新系统上线评估的例子,可以建立新系统上线试运行的工作要求。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档