前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >故障自愈组合套餐:复杂故障的自动化处理方案

故障自愈组合套餐:复杂故障的自动化处理方案

作者头像
嘉为蓝鲸
发布2019-03-15 11:53:56
2.3K0
发布2019-03-15 11:53:56
举报
文章被收录于专栏:嘉为蓝鲸的专栏

重磅惊喜:组合套餐

  • 自愈套餐新增支持将原子套餐组装成组合套餐,解决复杂故障处理场景。
  • 场景:大年三十晚上与家人团聚的时候,运维小A突然收到服务器Ping告警,往年遇到这种情况时,解决问题得花一段时间,团圆饭就基本泡汤了。 今年小A部署了蓝鲸智云社区版,研究了蓝鲸监控和故障自愈,针对往年常出现的故障,设置好了监控->自愈的恢复链路。Ping告警刚产生没几分钟,故障自愈就已经从资源池中拉取了备用机替换了故障机,保障了业务的正常运行,小A也愉快地在家里度过新年。 下面就给大家分享小A的故障自愈组合套餐配置方法。(如果担心全自动的故障恢复有风险,或者流程上不允许,还可以考虑使用带有审批功能的故障自愈组合套餐https://docs.bk.tencent.com/fta/Advanced_Features/Approval_of_ping_alarm_combination_package_access_process.html)

PING不可达故障替换组合套餐

场景:A模块是重要模块,出现PING不可达告警,首先要校验A模块是否真的故障,如果真的故障,接下来是从资源池中获取备机..故障替换等等,期间每个环节都有可能出错,那就要考虑异常分支的场景。

需要提前准备:

  1. 需要蓝鲸平台上部署故障自愈的前后端
  2. 需要配置好通知渠道,通知方式可采用邮件/短信/企业微信(配置方法可联系蓝鲸助手)

第一步:准备好组合套餐中每个原子(节点)的套餐。

1. 配置ping检测的原子套餐,可以在作业平台写个简单的ping检测脚本,再去故障自愈中配置ping检测的自愈套餐。

2. ping检测没有异常,则发送正常通知。如ping检测异常,则使用获取备机套餐,自动获取备机,前提是空闲机池中有空闲机。

2.1 配置ping检测正常通知

2.2 配置自动获取备机套餐

3. 成功获取备机后,拷贝故障机属性到备机,后续处理对象故障机与备机互换,然后初始化业务,启动进程通知故障替换成功,以上步骤失败都加一个失败通知。

3.1『快捷』配置平台拷贝故障机属性到备机、『快捷』后续处理对象故障机与备机互换,都是快捷套餐,只要选择就好,这里就不展开了,后面初始化业务请根据企业的初始化流程来配置初始化套餐,启动进程也是一样,因为这里只是模拟所以仅用通知代替。

第二步:配置组合套餐,并接入故障自愈,接入故障自愈这里选择REST默认分类是为了方便触发告警,实际应用选择ping不可达告警类型。

第三步:触发告警,完成自愈

1. 触发告警,由于这里是做测试,用REST API可以更方便的产生告警,完整流程请参照REST API推送。

2. 回到故障自愈中,查看自愈详情,也可以点击状态,查看执行详情。

惊喜二:标准运维套餐

  • 自愈套餐新增标准运维套餐,支持调用标准运维流程处理故障,标准运维是拥有可视化的图形界面,并进行任务流程编排和执行的系统,通过标准运维,可在单个流程内调用平台的众多原子,解决故障。

1. 创建标准运维故障处理流程

2. 在故障自愈创建自愈套餐,选择自愈流程

3. 接入自愈,简单3步即可完成标准运维套餐的使用

惊喜三:通知套餐

  • 自愈套餐新增通知套餐,可以调用不同的接口发送自定义的通知内容。(发送微信失败会改为短信,发送短信失败则发微信,邮件通知接口调用失败将不做处理)

惊喜四:审批套餐

  • 自愈套餐新增审批套餐,重要告警发送到企业微信等平台,需人工确认才能进行下一步处理。
    • 需要先配置企业微信,注册链接:https://work.weixin.qq.com/,注意:开启微信端口80、443
    • 需要在企业微信后台创建故障自愈APP

惊喜五:新增3种告警源集成

  • 目前已支持处理来源于AWS、Icinga 2、邮件中的告警 。

惊喜六:预警自愈

  • 频繁故障的资源,除了接入自愈之外,还可以选用预警自愈,配置预警自愈策略,每天早上8点回溯自愈处理过的告警,分析潜在风险并处理。可在健康诊断页面找到分析出的健康事件。

惊喜七:自愈小助手

  • 在没有接入自愈的时候,故障自愈也会检测监控工具是否有在产生告警,当检测到有未接入自愈的告警时候,自愈小助手就会根据推荐模型,自动关联告警和处理套餐,一键启用,减少了人工配置的成本。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 嘉为科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 重磅惊喜:组合套餐
  • 惊喜二:标准运维套餐
  • 惊喜三:通知套餐
  • 惊喜四:审批套餐
  • 惊喜五:新增3种告警源集成
  • 惊喜六:预警自愈
  • 惊喜七:自愈小助手
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档