文档中心>负载均衡>实践教程>负载均衡配置监控告警最佳实践

负载均衡配置监控告警最佳实践

最近更新时间:2023-11-23 16:02:41

我的收藏
为完善负载均衡 CLB 业务监控体系,结合腾讯云可观测平台的数据收集与告警能力,打造一体化预警机制。您可以通过使用腾讯云可观测平台全面了解负载均衡 CLB 的资源使用、性能和运行状况,您可以为您关注的实例配置监控告警,设置监控指标和事件的告警触发规则。当该实例的监控指标异常时,您可以第一时间接收到异常告警通知,及时响应处理故障。更多内容请参见 告警管理简介

使用场景

您可以为您关注的实例指标创建告警,使负载均衡 CLB 实例在运行状态达到某一条件时,及时发送告警信息至关心的用户群体。更方便、快捷的掌控可能出现的突发情况,提升运维效率,减少运维成本。
本文将介绍如何为已升级为性能容量型的公网负载均衡 CLB 实例配置告警,以标准型为例。更多性能容量型规格介绍,请参见 性能容量型规格介绍

前提条件

您已创建负载均衡实例并配置监听器,详情请参见 负载均衡快速入门
您已成功绑定后端服务器,详情请参见 绑定后端服务器
根据本例,目标实例需已升级为性能容量型,详情请参见 升级为性能容量型实例

基本概念

术语
定义
告警策略
由策略名称、策略类型、告警对象、触发条件和通知模板组成。
策略类型
告警策略类型用于标识策略分类,类型与云产品对应。例如:当您选择云服务器策略,即可自定义 CPU 使用率、磁盘使用率等指标告警。
触发条件
触发条件是指标、比较关系、阈值、统计粒度和持续 N 个监控数据点组成的一个有语义的条件。
监控类型
监控类型包含云产品监控、应用性能观测、前端性能监控和云拨测。
通知模板
多个策略一键复用模板,适用于多种场景接收告警通知,详情请参考 新建通知模板

指标介绍

判断性能容量型实例是否超限的核心指标有:客户端到 LB 的并发连接数、客户端到 LB 的新建连接数、每秒请求数、客户端到 LB 的出带宽、客户端到 LB 的入带宽,故需要关注上述核心指标的利用率告警指标,如下表所示。其中丢弃/利用率监控指标处于内测阶段,如需使用,请提交 工单申请。更多告警指标的说明请参见 告警指标说明
维度
告警策略类型
告警策略
告警指标
指标说明
实例
公网负载均衡实例
丢弃/利用率监控
入带宽利用率
在统计粒度内,客户端通过外网访问负载均衡所用的带宽利用率。
出带宽利用率
在统计粒度内,负载均衡访问外网所用的带宽使用率。
最大连接数使用率
在统计粒度内的某一时刻,从客户端到负载均衡的并发连接数相比性能容量型规格的并发连接数性能上限的利用率。
新建连接数使用率
在统计粒度内的某一时刻,从客户端到负载均衡的新建连接数相比性能容量型规格的新建连接数性能上限的利用率。
QPS 相关监控
QPS 利用率
在统计粒度内的某一时刻,负载均衡的 QPS 相比性能容量型规格的 QPS 性能上限的利用率。

操作步骤

2. 在左侧导航栏中,单击告警管理 > 策略管理,进入管理页面。
3. 单击新建策略,配置以下选项。
3.1 基本信息
策略名称:输入策略名称,最多60个字符。
备注:输入备注,最多100个字符。
监控类型:选择云产品监控
策略类型:选择负载均衡 > 公网负载均衡实例 > 丢弃/利用率监控
策略所属项目:选择策略所属项目。所属项目用于告警策略的分类和权限管理,与云产品实例的项目没有强绑定关系。
所属标签:选择策略所属标签。



3.2 配置告警规则
告警对象:选择目标实例作为告警对象。
触发条件:告警指标、统计粒度、比较关系、阈值、持续 N 个监控数据点和告警频率组成的一个有语义的条件。
例如,告警指标为入带宽利用率统计粒度为5分钟 、比较关系为 > 、阈值为 80% 持续监控数据点为 5 个数据点、告警频率为每 1 个小时告警一次。表示:每 5 分钟收集一次入带宽利用率数据,若某负载均衡实例的入带宽利用率连续 5 次大于 80% 则触发告警,告警频率为每 1 小时告警一次。
选择配置入带宽利用率、出带宽利用率、最大连接数使用率、新建连接数使用率,示例如下图所示。




3.3 配置告警通知:添加通知模板,选择告警接受对象、通知周期与接受渠道。若未创建通知模板,请单击新建模板进行创建,详情请参见 新建通知模板

4. 单击完成,即可完成配置入带宽利用率、出带宽利用率、最大连接数使用率、新建连接数使用率的监控告警。QPS 利用率监控告警请参考上一步骤新建告警策略,修改策略类型为负载均衡 > 公网负载均衡实例 > QPS 相关监控,触发条件配置以下内容即可。


解决方案

当接收到上述告警后,表明您业务量上涨,当前标准型的性能容量型实例规格即将达到性能上限,无法满足业务需求。请前往 调整性能容量型实例规格,以确保业务不受影响。