快照失败事件

最近更新时间:2023-06-21 15:21:39

我的收藏

事件介绍

“流计算快照失败” 事件表示当作业启用了周期快照(Checkpoint)后,某次快照因为超时等各类原因未能完成。 对于长时间运行的作业,偶尔一次的快照失败事件可能并不意味着作业出现了严重异常,只有当快照频繁失败时才需要针对具体情况进行应对。例如在 Flink UI 的 Checkpoints 面板中,某作业的快照 ID 6717发生失败时,显示如下图:



判定标准

事件的触发条件

作业的某次快照未能完成,快照的最终状态为 FAILED

事件的恢复条件

作业后续有一次快照成功完成,快照的最终状态为 COMPLETED

告警配置

用户可以对该事件 配置告警策略,并实时接收触发和恢复的告警通知。

处理建议

在事件面板,可以查看快照失败事件发生的原因。这里根据 Flink 执行链路的不同,可能显示出快照失败的直接原因,也有可能是一些较为泛化的报错,需要进一步分析。


我们还可以根据快照失败发生的时间点,通过 日志面板Flink UI 查看作业的 JobManager 和 TaskManager 在该时间点附近的报错日志。
如果 TaskManager 数量过多或日志量较大,未能在快照失败的时间点找到报错,还可以通过我们提供的 日志快捷诊断 功能,全局检索发生该事件的作业实例 ID 的异常日志。
如果上述诊断仍然未能发现问题所在,则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。特别地,可以重点关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标,检查是否存在明显异常。