文档中心 云监控 最佳实践 大批量监控场景

大批量监控场景

最近更新时间:2019-08-20 19:32:16

简介

随着客户业务的不断发展,底层的资源需求也随之增大。面对越来越多的基础资源,日常监控的效率成为了运维的一个瓶颈。腾讯云云监控为资源数量较多的客户亦提供了大批量监控场景解决方案。

操作步骤

监控大批量资源性能视图

资源量多时,逐个查看所有云资源的指标数据显得不切实际;且逐个排查也无法与全局进行对比,发现异常相对困难的问题,因此监控大批量资源有两个关键点:

  • 聚合:指聚合一批资源的性能数据,通过聚合得到的总数据可便捷地了解资源运行的总体性能情况。
  • 排序:针对一批资源的不同指标分别进行排序,可快速发现异常数据以及对应的资源对象。

创建大批量资源的汇聚监控视图

下面以云服务器为例:

  1. 通过项目将云服务器通过业务/集群分类管理,不同业务/集群的资源位于不同项目下。
  2. 登录 云监控控制台
  3. 在左侧导航栏中,单击【Dashboard】,进入 Dashboard 管理页面。
  4. 在页面左上方,“Dashboard”右侧,单击【添加监控面板】,添加面板。
  5. 单击【添加监控图表】,在弹出的配置框中,配置监控项,详情请参见 监控视图配置
  6. 完成后单击【确定】按钮,即完成视图创建。
    • 支持批量创建多个指标的多个图表,为用户免去重复选择监控对象的繁琐流程
    • 支持按对象列表顺序批量创建图表,避免用户因需监控的资源数超出图表容纳上限而进行多次新建图表配置
    • 支持资源列表的筛选、搜索、一键全选以及按shift多选功能;友好的批量操作为用户大批量选取资源带来便利,提升配置效率
  7. 带宽类指标,可将所有服务器的数据求 sum 得到一个业务/集群使用的总带宽。
    性能类指标,如CPU使用率,可将所有的服务器监控数据求 avg、max 与 min,并展示在同一个图表中。此时得到一个业务/集群的平均、最大、最小CPU使用率。通过这三根曲线的走势对比,可以直观地定位异常坡峰。
  8. 汇聚视图中发现异常数据通过资源总体的汇聚曲线走势、与曲线间的对比,可了解资源性能数据的整体走势与异常情况。
    如带宽数据,可通过出入带宽曲线对比、带宽整体走势判断当前带宽是否异常;如CPU使用率,可通过平均CPU使用率与最大、最小CPU使用率的对比判断资源总体情况以及是否存在部分资源异常情况。
  9. 定位具体异常对象
    1. 可单击该时间段的曲线图,展开对应实例的性能排序列表;排序列表支持用户切换排序顺序以及排序指标,亦可通过单击曲线图不同位置,修改列表中展示的数据。
    2. 当鼠标悬浮于列表中不同实例时,上方曲线图将高亮该实例对应的监控数据曲线图。将此实例的监控曲线数据与聚合后的总体数据进行对比分析,可进一步确认实例当前与历史的异常状况。
    3. 经过上面两步确认具体异常对象后,单击列表中异常对象的名称,页面将跳转至异常对象的监控详情页面,进行进一步的排障。

至此,已完成创建监控视图→查看监控视图→发现异常→定位具体异常的过程。通过曲线图与排序列表的结合,用户可以直观地概览全局资源的运行状况,定位具体异常对象,并分析产生异常趋势;解决了大批量监控效率低、异常排查困难的问题。

注意:

目前dashboard中每张曲线图最多可添加12个云服务实例,若此数量上限不能满足您使用的需求,可提工单提升此限制。

创建大批量资源的明细监控视图

除汇聚视图外,用户还可以选择明细视图帮助用户发现和定位大批量资源的异常信息。

明细视图:将所有实例的曲线都展示在同一张曲线图中。
汇聚视图:将所有实例的曲线通过用户定义的统计方式计算汇聚为一条或多条曲线。

  1. 创建明细视图
    明细视图的创建流程与汇聚视图类似,明细视图在创建过程中无需选择统计方式一项。具体流程可参考:配置监控视图
  2. 明细视图中发现异常数据
    • 同一个业务/集群下的资源数越多,曲线图中的曲线就越密集。曲线图中曲线的整体走势与曲线疏密状况,说明了资源性能数据的整体走势与分布情况。
    • 当部分曲线远离密集区域,说明该实例的性能数据出现异常。
  3. 定位具体异常对象
    明细视图亦可通过曲线图与排序列表结合,定位具体异常对象。整体流程与汇聚视图类似,可参考上文中汇聚视图的第6点。
    注意:

    目前dashboard中每张曲线图最多可添加12个云服务实例,若此数量上限不能满足您使用的需求,可提工单提升此限制。

对大批量资源配置告警策略

  1. 通过项目将云服务资源通过业务/集群分类管理,不同业务/集群的资源位于不同项目下。
  2. 至监控控制台中【告警配置】模块为资源创建告警策略。由于已将资源按项目进行分组,用户可为不同的项目创建默认 告警策略
    默认告警策略将自动绑定该项目下的所有资源,若用户项目下出现新购资源或更换项目、到期销毁等资源变动情况,默认告警默认绑定的资源对象也将协同变动;避免了繁琐的人工维护成本。