异常排障

最近更新时间:2019-08-20 19:26:36

简介

云监控提供了多种方式帮助用户判断资源异常,并通过多种渠道使异常信息第一时间触达用户。

定位异常

通过监控告警发现异常

监控告警是一种腾讯云及时发现、主动提醒,用户被动发现异常情况的方式;保证了用户在任何情况下都能及时发现异常信息。用户可登录 云监控控制台,对关注的资源配置相应的告警策略。可参考:创建告警策略

已配置作为告警规则的重要性能指标与事件,在发生异常时,将及时通过告警通道中的多种方式及时触达用户及用户的系统。

配置了告警接受组的告警策略,将通过短信/邮件等方式及时触达用户;并支持重复告警、告警收敛等功能,帮助用户不错过重要告警的同时避免告警对用户的过度骚扰。

用户亦可通过配置告警通道中的回调接口功能,使异常告警信息触达用户的系统,对异常告警信息进行进一步的聚合与处理。

通过监控视图发现异常

通过监控视图定位异常,是用户根据性能指标的平均走势与历史数据主动定位异常的方式,需要用户主动发现异常。对于一些未配置告警、或告警规则不容易发现的异常状况,可在日常巡检中通过监控视图发现;相比于告警,可以帮助用户从全局定位资源的异常影响面。用户可通过将重要资源订阅到dashboard的方式,并通过合理的图表设置突出各种场景下的资源异常信息。可参考:配置监控视图

对于个别实例,可通过订阅实例明细视图的方式,在dashboard面板上便捷地进行实例件性能数据的走势对比。

对于资源集群,可通过订阅同个集群下的聚合数据,在dashboard面板上便捷地查看集群整体监控视图,并与集群下单个实例的视图进行走势对比。可参考:大批量监控场景最佳实践

通过视图发现的异常点,均可通过视图的排序列表功能,定位到具体资源与异常影响面,进行进一步的异常定位排障。

异常排障

通过监控概览页定位异常对象

用户在日常巡检/接收到告警信息时,可登录云监控控制台,查看 监控概览页

  1. 查看概览页—云服务健康状态模块,了解各个地域与项目下资源异常状况
    可通过异常信息概览功能,初步浏览近期异常。
  2. 单击异常对象数量,跳转至云产品监控页面。

    云产品监控的列表页将自动在为用户筛选出异常的具体资源对象。
  3. 单击具体对象的ID,可跳转至对象的监控详情页面,提供用户回溯历史状况,辅助异常定位的详细信息。
    • 异常时间轴,提供用户查看该异常对象当前与历史信息的功能。通过历史告警与状态变更信息,辅助用户排查当前异常。
    • 资源性能监控数据,提供用户最全面的资源性能数据。可将同一指标当前数据与历史数据进行同比与环比,或对比不同指标在同个时段的数据变化进行排障。

通过 Dashboard 定位异常对象

登录 云监控控制台,在左侧导航栏中,单击【Dashboard】,进入 Dashboard 管理页面。

  1. 当监控视图中出现异常走势,单击异常时间段,曲线图下方将展开对应实例的排序列表。通过排序列表,可定位产生异常的具体对象。
  2. 单击排序列表中的对象名称,可跳转至对象的监控详情页面,提供用户回溯历史状况,辅助异常定位的详细信息。
    • 异常时间轴,提供用户查看该异常对象当前与历史信息的功能。通过历史告警与状态变更信息,辅助用户排查当前异常。
    • 资源性能监控数据,提供用户最全面的资源性能数据。可将同一指标当前数据与历史数据进行同比与环比,或对比不同指标在同个时段的数据变化进行排障。