告警管理指按照预设告警策略,自动检测各类监控指标数据是否达到异常阈值,并按照指定的方式向目标人员推送告警信息的机制。告警管理能实现对系统运行状态的实时监控和异常情况的快速响应,有助于提升运维效率,降低人工监控成本,能够及时发现并处理潜在问题。
功能入口
告警管理分为企业级和空间级两个入口,企业级告警管理可配置当前企业下的所有告警策略,空间级告警管理可配置某一工作空间中的告警策略。
1. 企业级告警管理
1.1 登录 腾讯云智能体开发控制台,单击右上角企业管理,展开二级菜单。
1.2 选择运维管理,即可进入企业级告警管理页面,支持配置企业级告警策略。


说明:
仅空间管理员支持访问企业管理 > 运维管理模块。
2. 空间级告警管理
2.1 进入具体工作空间后,在左侧导航栏中找到运维管理。
2.2 单击告警管理,即可进入当前空间的告警管理页面。
说明:
1. 仅拥有对应功能权限的用户可查看告警策略,确保数据安全。
2. 空间级告警管理功能权限请前往“平台端用户权限”进行配置。


新建告警策略
单击新建告警策略,进入配置页面,需完成基础信息、触发条件、告警通知三部分配置,配置完成后单击确定即可创建策略。


基础信息配置
配置 | 说明 |
告警策略名称 | 自定义策略名称,用于区分不同告警规则。 |
告警等级 | 表示本次告警的严重程度,支持“一般”、“严重”、“致命”三种,默认为“一般”。 |
生效时间 | 表示该策略的生效时间范围,在该时间范围内会监测异常情况并告警。 |
触发条件配置
触发条件是告警的核心判断规则,支持单条件或多条件配置,最多支持添加 10 个条件,条件间为 “或”的关系,即任一条件满足时触发告警。针对任意一条告警策略,需同时满足触发的条件与频次才会触发告警。
配置 | 说明 |
条件 | 被监控的核心指标,需设置“监控对象”、“逻辑判断条件”与“阈值”。当监控对象达到逻辑判断条件的阈值时,触发告警策略。 |
频次 | 频次支持配置“时间范围”、“计算方式”、与“次数”。逻辑含义为在一段时间内累计或连续触发一定数量的异常情况。 |
条件列表
在条件配置中,支持配置以下条件:
条件名称 | 空间级是否支持 | 企业级是否支持 |
某个大模型的Token单日用量 | 是 | 是 |
知识库剩余容量 | 否 | 是 |
某个大模型的TPM | 是 | 否 |
某个应用的QPM | 是 | 否 |
某个应用的调用成功成功率 | 是 | 否 |
告警通知
告警通知是平台在监测到指标达到告警策略预设阈值时,通过短信、邮件等指定渠道,向运维人员推送的异常提醒信息,实现异常的及时触达。目前支持短信、邮件、企业微信、钉钉、飞书、Webhook 等告警通知方式。


配置告警通知前,用户需在腾讯云上授权对应产品。
接入短信
接入邮件
配置 | 说明 |
通知模板 | 告警通知的具体邮件正文内容模板。 |
发件人邮箱 | 发送邮件者的邮箱地址。 |
收件人邮箱 | 通知对象的邮箱,添加多个邮箱时,需以逗号或分号分隔。 |
接入企业微信
配置 | 说明 |
URL 地址 | 需填写开通企业微信群机器人权限得到的 Webhook 信息,以 http:// 或 https://开头。 |
接入钉钉
配置 | 说明 |
URL 地址 | 需填写开通钉钉群机器人权限得到的 Webhook 信息,以 http:// 或 https://开头。 |
接入飞书
配置 | 说明 |
URL 地址 | 需填写开通飞书群机器人权限得到的 Webhook 信息,以 http:// 或 https://开头。 |
接入 Webhook
为设置 Webhook ,客户端需向服务器 API 提供唯一的 URL,并指定其要了解的事件。用户可自由配置 Webhook 来源。
配置 | 说明 |
URL 地址 | 需填写 Webhook 信息,以 http:// 或 https://开头。 |
告警服务会向您提供的 Webhook URL 发送格式固定的 HTTP POST 请求,具体格式如下:
文本类型请求格式:
{"msgtype": "text","text": {"content": "具体消息内容"}}
富文本类型请求格式:
{"msgtype": "markdown","markdown": {"content": "具体消息内容"}}
参数 | 参数类型 | 是否必填 | 说明 |
msgtype | string | 是 | 支持 text 和 markdown |
text.content | string | 否 | 文本格式消息内容 |
markdown.content | string | 否 | 富文本格式消息内容 |