有奖捉虫:云通信与企业服务文档专题,速来> HOT
文档中心 > 腾讯云可观测平台 > 云产品监控 > 最佳实践 > 批量资源监控场景(云服务器)

简介

随着业务不断发展,底层资源的规模随之增大,面对越来越多的基础资源,日常监控的效率成为了运维的一个瓶颈。批量资源监控场景解决方案是腾讯云可观测平台为客户在资源数量较多的情况下提高监控效率的一种解决方案,下面将以监控批量云服务器为例,为您提供监控复杂业务指标的最佳实践。

实践说明

实践关键

用户在腾讯云云服务器上布置了较为复杂的业务,主机数量较多,此时逐个查看所有云资源的监控数据显得不切实际,且逐个排查也无法与全局进行对比,发现异常问题相对困难,同时无法在业务或集群维度进行监控,运维效率和手段都相对落后。因此监控批量资源有以下关键点:
图表分组
动态分析
同环比分析
图表快速跳转
图例及排序

实践背景

如下图所示,企鹅项目下有2个业务,分别为帝企鹅业务和圆企鹅业务。
帝企鹅业务有7台主机,其中3台用于前端,4台用于后端,
圆企鹅业务有6台主机,其中3台为广州主机,3台为深圳主机。



实践最终效果





步骤1:新建 Dashboard 与图表组

1. 新建 Dashboard。此处创建 Dashboard企鹅项目,具体操作步骤请参见 新建 Dashboard


2. 新建图表组。如下图所示,单击 Dashboard 右上方的新建图标后,单击新建图表组输入图表组名称即可创建图表组,本实践案例按业务分类创建2个图表组。



步骤2:为不同业务新建监控图表

本步骤将为两个业务配置前后端分离或地域分离的聚合和明细监控图表,此处以前后端分离监控场景为例。
1. 单击新建图表,配置明细图表内容如下所示。
图表名:在图表配置中的基础信息中填写图表名
监控类型:本例选择云产品监控
指标:选择云产品类型和需要监控的指标。本例选择云服务器-基础监控,监控指标以基础 CPU 使用率为例。
筛选:对监控数据源进行筛选。本例选择实例 ID 后即可选择该图表需要监控的实例,本图表选定的监控对象为所属帝企鹅业务的前端主机3台。
group by:类似 SQL 的 Group by 功能,根据指定标签对数据进行分组后再按照聚合算法聚合。本例选择实例 ID 后即可预览到3条曲线,其对应3台前端主机的基础 CPU 利用率。


2. 单击新建图表,配置聚合图表内容如下所示。
本例新建图表前端-基础 CPU 平均使用率,其目的是监控前端3台主机的平均 CPU 使用率。图表名、监控类型、指标、筛选的配置方法与明细图表一致。
group by:对于聚合图表此处不选择标签,而应选择聚合方法。目前提供 sum、max、min、avg 四种聚合方法,本例选择 avg 方法后即可预览到前端3台主机的基础 CPU 平均使用率,如下图所示。


3. 新图表创建后如下,此时需要将新建图表拖拽到所属图表组,并拉伸到需要的大小。


4. 新建完成。此时对已完成帝企鹅业务的3台前端主机的 CPU 单机利用率和平均利用率的基础图表创建,接下来将对这两个图表进行更高级的配置以完成更高效的监控工作。



步骤3:图表高级配置

1. 同环比曲线配置。 对于前文配置的前端-基础 CPU 平均使用率聚合图表,单条曲线的趋势无法快速定位问题,配置同环比曲线可以实现对当前数据与昨天和上周同时段进行对比,如图所示,配置后的3条曲线对比分析将能更快速凸显数据异常。


2. 图例配置及其排序。 对于前文配置的前端主机-基础 CPU 使用率明细图表,默认情况下可从图表查看到曲线最大值,而当前面对多条波动较复杂的曲线,用户可以增加最小值、平均值、求和等多种汇总函数的图例,丰富指标数据以查看和分析一段时间的整体趋势。同时,利用图例排序针对一批资源的不同数值分别进行排序,可快速发现异常数据以及对应的资源对象。


3. 链接跳转配置。 Dashboard 为图表配置提供数据与图表两个位置的链接跳转,供用户配置多种个性化运维场景,如下图为前端-基础 CPU 平均使用率配置的两个使用场景:
数据链接:Avg 视图,链接可从当前聚合图表跳转到对应的单机明细图表,快速分析与查看单机监控指标。
图表链接:一键拉群,链接可对与当前图表相关的运维人员实现一键拉群发布消息,高效协同运维以快速解决问题。


4. 配置完成,以上三点配置完成后可在 Dashboard 页面查看如下。



步骤4:图表高效分析

1. 使用模板变量动态分析指标。 模板变量为用户实现在相同的 Dashboard 中动态切换不同的数据源,用户可以动态选择模板变量捆绑的标签值,随时在同一套图表中展示不同的数据。例如,我们可以对前文配置的前端-基础 CPU 平均使用率进行改造,目标图表为可以动态改变数据源实例的模板变量-基础 CPU 平均使用率,如下步骤:
1.1 新增模板变量$帝企鹅业务实例ID,关联标签为云服务器-基础监控的实例,具体新增步骤请参见 配置模板变量,配置完成后可在 Dashboard 左上角看到值为空的模板变量。


1.2 复制图表前端-基础 CPU 平均使用率到当前 Dashboard。


1.3 编辑其中一个前端-基础 CPU 平均使用率图表,更改名称为模板变量-基础 CPU 平均使用率,使用模板变量$帝企鹅业务实例ID作为筛选条件,此时未选择模板变量的标签值,图表预览页面为“暂无数据”,保存图表。


1.4 在 Dashboard 页面选择或填写模板变量$帝企鹅业务实例ID的标签值,即可动态查看图表数据:
选择两台实例


选择三台实例


2. 调整 Y 轴基线,放大指标变化趋势。
当指标出现与较大偏移点,例如在某时刻突增或突减出现了与其余数据点相差较大的极值点,此时图表为了展示该点突变数据,可能会造成其余数据曲线的变化趋势不直观的情况,如下图所示。


图表配置模块手动调整该图表的最大值或最小值,沿 Y 轴的放大局部曲线,以此更直观地查看指标变化趋势。



步骤5:对批量资源配置告警策略

1. 通过项目将云服务资源通过业务/集群分类管理,不同业务/集群的资源位于不同项目下。
2. 至监控控制台中告警配置模块为资源创建告警策略。由于已将资源按项目进行分组,用户可为不同的项目创建默认 告警策略。 默认告警策略将自动绑定该项目下的所有资源,若用户项目下出现新购资源或更换项目、到期销毁等资源变动情况,默认告警默认绑定的资源对象也将协同变动;避免了繁琐的人工维护成本。