任务告警

最近更新时间:2024-05-16 14:30:02

我的收藏

告警规则

告警规则页面提供了告警任务的配置功能,支持对项目、任务、工作流的运行情况进行告警条件、告警通知的配置。

新增规则

2. 单击左侧菜单中的项目列表,找到需要配置告警规则的目标项目。
3. 选择项目后,单击进入数据开发模块。
4. 单击左侧菜单中的告警规则,进入告警规则管理页面,单击新建规则,填写规则信息。

功能描述:
信息
描述
基本信息
规则名称
告警规则名称,1-128字符,仅限中文、英文、数字和下划线。
监控对象
选择需要进行规则告警的监控对象,目前支持为计算任务、工作流、项目配置告警规则。
任务告警:可以选择编排空间中,已提交运维的所有计算任务节点进行告警规则配置。



工作流告警:可以为编排空间中已提交运维的工作流配置告警规则,规则的监控对象为工作流中的所有计算任务。提供白名单能力,工作流中的计算任务添加进入白名单后,白名单任务将不受告警规则监控。



项目告警:可以将当前项目中,编排空间已提交运维的所有计算任务设置告警规则,提供白名单能力,计算任务添加进入白名单后,白名单任务将不受告警规则监控。



告警条件
运行失败
被监控的任务生成实例运行失败时进行告警,支持针对周期执行或补录、重跑执行进行配置。可以选择“所有重试完成后失败”或“第一次运行失败”的规则触发条件。
所有重试完成后失败:根据计算任务调度策略中针对任务执行失败的情况,如果有失败重试的相关配置,则按照失败重试的次数执行后,实例均运行失败时,触发告警规则。
第一次运行失败:根据计算任务调度策略,第一次生成的实例运行失败后,触发告警规则。



运行超时
被监控的任务生成实例调度或运行超出预设时间时进行告警,支持针对周期执行或补录、重跑执行进行配置。可以对“预计运行耗时”、“预计完成时间”、“预计等待调度耗时”和“周期内未完成”这四个关键时间要求设置规则触发条件。
预计运行耗时:从任务实例运行开始时间进行计算,未在耗时要求内完成则触发告警。可以使用“指定值”或“历史均值”来限定实例运行耗时。
指定值:在指定的小时分钟耗时要求时间内,实例未执行完成,则触发告警规则。
历史均值:取计算任务最近 10 次成功运行的实例运行耗时,再去除最大和最小值后取平均值,不足10次时设置无效。



预计完成时间:从任务实例运行开始时间进行计算,未在规定时间点完成则触发告警。可以使用“指定值”或“历史均值”来规定实例需要运行完成的时间点。
指定值:在指定的小时/分钟时间点前,实例未执行完成,则触发告警规则。
历史均值:取计算任务最近 10 次成功运行的实例运行耗时,再去除最大和最小值后取平均值,不足10次时设置无效。



预计等待耗时:限制从任务实例的计划调度时间到实际开始运行时间的间隔时间耗时。如果超过设置时间段还未运行,则触发告警。



周期内未完成:任务实例在其当前运行周期内未运行完成时触发告警,周期=间隔*周期单位,例如:
分钟任务:15分间隔任务,则周期为15分钟,如果任务运行超过15分钟未完成则告警。
小时任务:指定小时或间隔为1时,则周期均为1小时;间隔为2,则周期为2小时,依此类推。
天、周、月和年任务:周期均为1天。



运行成功
被监控的任务生成实例运行成功时进行告警,支持针对周期执行或补录、重跑执行进行配置。
告警通知
告警级别
根据不同告警类型的告警级别,区分告警信息发送内容,目前提供普通、重要、紧急三种告警类型选择。



接收人
告警规则触发后,会向接收人发送告警信息,目前支持“指定人员”、“任务责任人”、“值班表”三种方式设置告警规则触发后的告警信息接收人。
指定人员:可以指定任意的一个或多个用户作为告警信息接收人。
任务责任人:将计算任务的责任人作为告警信息接收人。
值班表:将已排班的值班表作为接收人,向值班用户发送告警信息。



告警方式
告警规则出发后,告警信息的发送渠道。目前支持邮件、短信、微信、电话、企业微信、HTTP、企业微信群、飞书群的推送方式。手机、微信、邮件等账号可以在腾讯云个人中心 > 访问管理 > 用户模块中配置,企业微信账号在腾讯云个人中心 > 访问管理 > 联合账号中配置。Http 在告警渠道中配置。
通知频率
支持定义一次告警的发送次数,及每次发送消息之间的间隔时间。



通知免打扰
支持设置通知的免打扰时间,免打扰时段内告警将不会发送,用户可以在告警信息中查看到告警记录。
免打扰支持按照星期、时间进行配置,支持配置多段免打扰时间。




查看告警规则列表

告警规则新建完成后会展示在告警规则列表,列表内显示规则名称、告警类型、告警方式、接收人等信息,并且提供规则开关、规则详情等功能帮助用户管理维护告警规则。



功能描述:
信息
描述
规则名称
显示告警规则名称与 ID 号。
监控对象
显示告警规则生效的任务、工作流、项目这三种监控对象,并可以查看监控对象下告警规则涉及的计算任务。
告警类型
显示告警规则的监控类型:失败、超时、成功。
告警级别
显示告警规则的告警级别:普通、重要、紧急。
告警启停
显示告警规则当前的启动状态,可以人为进行开关。处于停止状态时,告警规则将不会生效,告警信息也不会生成。
告警方式
显示告警规则的告警信息发送渠道。
接收人
显示告警规则配置的告警信息接收人。
创建人
显示当前告警规则的创建人。

操作告警规则




功能描述:
信息
描述
规则详情
通过规则详情可以查看告警规则配置时的各项参数,包括规则名称、监控对象、监控任务、告警条件、告警通知。



告警信息
跳转到对应告警规则触发后生成的告警信息列表页面,可以查看告警规则每一次触发生成的告警信息详情。



删除
显示告警规则的监控类型:失败、超时、成功。




筛选告警规则

在搜索框中输入告警规则名称或 ID 可以对列表进行筛选。




告警信息

告警规则针对监控对象触发后生成的告警信息会展示在告警信息列表中,列表中提供了告警信息的详情与运行日志,以及基本信息查看功能。

查看告警信息列表

2. 单击左侧菜单中的项目列表,找到需要操作数据管理功能的目标项目。
3. 选择项目后,单击进入数据开发模块。
4. 单击左侧菜单中的告警信息,进入告警信息管理页面。



功能描述:
信息
描述
告警时间
显示告警信息的生成时间。
告警任务
显示触发告警信息的任务实例名称与实例 ID。单击实例名称可以跳转到对应实例的管理页面。



告警原因
显示当前告警信息的被触发原因。
告警级别
显示告警信息的告警级别:普通、重要、紧急。
规则名称
显示触发该条告警信息的告警规则,单击规则名称可以跳转到对应告警规则的管理页面。



告警方式
显示告警信息的发送渠道。
接收人
显示告警信息的接收人。

操作告警信息




单击操作列下的查看详情,在弹框中可以看到告警信息的告警对象、告警原因以及信息发送状态。



功能描述:
信息
描述
告警对象
显示触发告警信息的任务实例名称与实例 ID。



任务名称:显示触发告警信息的计算任务的任务名称,单击任务名称会跳转到触发该告警信息的实例所在页面。
实例 ID:显示触发告警信息的实例 ID,单击查看日志会跳转到对应实例的日志信息页面。
告警原因
根据配置的告警规则触发条件显示当前告警信息的被触发原因。
例如告警条件选择:运行超时>预计完成时间。



则规则触发后显示的告警原因为:预计完成时间超时。




发送状态
显示当前告警信息的发送时间、接收人与发送渠道,从发送渠道的状态中可以看到各渠道下是否发送成功。



发送时间:显示规则触发后向接收人发送告警信息的时间。
接收人:显示告警信息接收人。
发送渠道:使用不同图标显示各个渠道的告警信息发送状态。

筛选告警信息

按任务名称、任务 ID 筛选:支持按触发告警信息的计算任务名称与任务 ID 对生成的告警信息进行筛选。



按规则名称、规则 ID 筛选:支持按触发告警信息的告警规则名称与规则 ID 对生成的告警信息进行筛选。