任务事件告警配置指引

最近更新时间:2025-02-25 21:26:32

我的收藏

总体说明

训练任务过程中产生的重要事件信息已经接入了腾讯云可观测平台事件总线,用户可以在事件总线配置事件规则进行相关事件的告警推送。目前已经支持的事件为任务进入排队(taskScheduling)、任务进入运行(taskRunning)、排队运行完成(taskCompleted)任务执行失败(taskExecuteFailed)、任务自动重启(taskRestarted)、任务被抢占(taskPreempted)、任务已停止(taskStopped)。

操作步骤

1. 进入可观测平台 > 事件集,进入云服务事件集-default事件集(该事件集用于接收云服务告警、审计等类型事件,无地域概念,全地域云服务事件默认全部投递至广州,如希望配置告警,您需要在该事件集下绑定告警规则)。



2. 单击管理事件规则,可进入事件规则列表,您可在这里配置事件的匹配规则,事件目标等。



3. 单击新建规则,填写规则名称,例如 TIONE 训练任务告警,选择云服务类型为 TI-ONE 训练平台。



下拉可以选择查看事件示例,表示云服务产品投递到事件总线的事件结构。后续的事件匹配规则可以按照上述事件结构自定义编写。



事件匹配规则可以根据表单模式或者自定义事件模式,推荐使用自定义事件模式。TIONE 平台当前支持针对部分实例(例如部分训练任务)和全部实例(全部训练任务,新增的训练任务自动加入规则告警队列),同时平台还支持按照云产品标签或者任务创建者进行事件规则匹配,以下是部分示例:
按照事件类型匹配:
以下规则表示当前主账号下所有的训练任务当发生 taskExecuteFailed 或者 taskCompleted 两类事件时,会发出告警。
{
"source": "tione.cloud.tencent",
"type": [
"tione:ErrorEvent:taskExecuteFailed"
"tione:ErrorEvent:taskCompleted"
]
}
按子账号 UIN 匹配:
以下规则表示子账号010013819411创建的训练任务当发生 taskExecuteFailed、taskCompleted、taskRestarted 或者 taskPreempted 任一事件时,会发出告警。
{
"source": "tione.cloud.tencent",
"data": {
"taskSubUin": "010013819411"
}
}
按照标签匹配:
以下规则表示同时满足标签为 部门:算法研究和环境:测试 的训练任务当发生 taskExecuteFailed、taskCompleted、taskRestarted 或者 taskPreempted 任一事件时,会发出告警。
{
"source": "tione.cloud.tencent",
"data": {
"tags": [
{
"contain":["部门:算法研究;","环境:测试;"]
}
]
}
}
以下规则表示标签为 部门:算法研究 或者 环境:测试 的训练任务当发生taskExecuteFailed、taskCompleted、taskRestarted或者taskPreempted任一事件时,会发出告警。
{
"source": "tione.cloud.tencent",
"data": {
"tags": [
{
"contain":["部门:算法研究;"]
},
{
"contain":["环境:测试;"]
}
]
}
}
以上所有支持的类型都可以组合匹配,例如:以下规则表示同时满足标签为 部门:算法研究和环境:测试 且创建者子账号为010013819411的训练任务当发生 taskExecuteFailed 事件时,会发出告警。
{
"source": "tione.cloud.tencent",
"type": [
"tione:ErrorEvent:taskExecuteFailed"
],
"data": {
"tags": [
{
"contain":["部门:算法研究;","环境:测试;"]
}
],
"taskSubUin": "010013819411"
}
}



4. 完成事件匹配后,单击下一步,开始配置事件目标(也就是告警渠道),选择触发方式为 消息推送,通知方式为 渠道推送,选择接收对象(可以选择一个或者多个告警接收账号),选择接收渠道(支持邮件,短信,电话,站内信),单击完成后即可返回事件规则页面。



5. 以上都配置完成后,满足告警触发的事件发生后,即会收到事件通知,如下所示(示例为邮件通知)。