操作场景
TDMQ MQTT 版不仅为运行中的资源提供了多项监控指标,用于监测集群的运行情况,还提供了关键指标的配置告警功能。您可以为监控指标配置告警规则,创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,您可以及时采取相应的预防或补救措施,合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。
告警配置建议
本节为您介绍在使用 TDMQ MQTT 版过程中需要重点关注的一些指标及其告警配置建议:
指标名称 | 单位 | 推荐告警策略 | 说明 | 告警处理建议 |
消息收发负载 | % | 统计周期1分钟,>80%,持续5个周期,每10分钟告警一次 | ||
连接负载 | % | 统计周期1分钟,>80%,持续5个周期,每10分钟告警一次 | 集群的连接数负载 = 当前在线连接数 /连接数规格*100%,百分比超出100%后会导致新建的客户端连接被拒绝。 | |
CONNECT 被限流次数 | 次 | 统计周期1分钟,>0,持续5个周期,每10分钟告警一次 | 因为流控机制而连接失败的 CONNECT Packet 的数量,如连接数超出集群规格或实际公网带宽超出集群公网配置。 | |
PUBLISH 被限流次数 | 次 | 统计周期1分钟,>0,持续5个周期,每10分钟告警一次 | 因为流控机制而连接失败的 PUBLISH Packet 的数量,如收发消息 TPS 超出集群规格。 | |
SUBSCRIBE 被限流次数 | 次 | 统计周期1分钟,>0,持续5个周期,每10分钟告警一次 | 因为流控机制而连接失败的 SUBSCRIBE Packet 的数量,如收发消息 TPS 超出集群规格。 | |
客户端消费消息错误次数 | 次 | 统计周期1分钟,>0,持续5个周期,每10分钟告警一次 | 客户端消费指定消息时产生错误码的总次数。 | |
认证失败次数 | 次 | 统计周期1分钟,>0,持续5个周期,每10分钟告警一次 | ||
授权失败次数 | 次 | 统计周期1分钟,>0,持续5个周期,每10分钟告警一次 | 查看具体报错的客户端和 Topic 等信息,查看授权策略列表相关的策略配置,检查是否权限策略配置错误。 |
进入配置告警页面
入口一:登录 TDMQ MQTT 版控制台,在监控大盘页面,单击右上角的配置告警按钮可以跳转到告警配置页面,页面默认设定的告警对象是跳转前监控数据对应的集群。

入口二:登录腾讯云可观测平台控制台,在告警配置页面可以查看所有预设策略和自定义策略,单击新建策略,监控类型选择云产品监控,策略类型选择消息队列TDMQ/MQTT/集群。
配置告警策略
1. 进入告警策略配置页面后,选择好策略类型,页面会自动展示当前资源类型提供的策略,您可以在默认告警策略基础上根据实际业务需求自定义配置告警策略。
2. 选择您要设置告警的对象。
所属标签:可以根据标签批量筛选您想配置告警策略的资源。
告警对象:选择需要配置告警策略的 MQTT 资源。
3. 设置告警触发条件,支持选择模板和手动配置,默认选择手动配置。
指标:例如“在线客户端数量”,选择统计粒度为1分钟,则在1分钟内,在线客户端数量连续 N 个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
1. 勾选选择模板后,单击新建触发条件模板,跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板,在新建模板页面,配置告警策略。
策略类型:选择消息队列TDMQ/MQTT/集群。
触发条件:根据您实际的业务需求,设置好告警策略。

3. 确认无误后,单击保存,返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。
说明:
4. 单击下一步:配置告警通知,配置告警通知人。
配置告警通知
在配置告警通知页面,您可以选择系统预设的通知模板,预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员,也可以单击新建模板来新建通知模板,设置告警接收对象和接收渠道。
