JobManager CPU 负载过高事件

最近更新时间:2023-06-21 15:22:02

我的收藏

事件介绍

Flink 作业的 JobManager 负责整个作业的管理和调度工作,其 CPU 负载过高可能会导致作业出现各类异常。当作业的 JobManager 长期接近满载时,会触发本事件。
说明
该功能目前为 Beta 版,暂不支持规则的自定义,后续该能力会陆续上线。

判定标准

系统每 5 分钟会检测一次 Flink 作业中 JobManager 的 CPU 使用率指标。
当 JobManager 的 CPU 使用率连续 5 个数据点的值都超过 80%,则说明这个 JobManager 处于 CPU 高负载状态。
注意
为了避免频繁告警,每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。

告警配置

用户可以对该事件 配置作业监控告警(异常事件),并实时接收触发和恢复的告警通知。

处理建议

造成 JobManager CPU 过高的原因较为复杂,我们建议增加作业的 资源配置,例如调大 JobManager 的规格。
此外,还可以通过 工单 等方式联系我们的技术人员以协助定位。