专栏首页SmartSiFlink监控检查点

Flink监控检查点

Flink 1.11

Flink的 Web 页面中提供了一些页面标签,用于监控作业的检查点。这些监控统计信息即使在作业终止后也可以看到。Checkpoints 监控页面共有四个不同的 Tab 页签:Overview、History、Summary 和 Configuration,它们分别从不同角度进行了监控,每个页面都包含了与 Checkpoint 相关的指标。

1. Overview

Overview 页签宏观的记录了 Flink 应用中 Checkpoint 的数量以及 Checkpoint 的最新记录,包括失败和完成的 Checkpoint 记录。

Overview 页签列出了如下统计信息指标:

  • Checkpoint Counts:包括从作业开始以来已触发、正在进行中、已完成、失败、重置的 Checkpoint 个数。
  • Latest Completed Checkpoint:记录了最近一次完成的 Checkpoint:包括ID、完成时间点、端到端时长、状态大小、存储路径等。
  • Latest Failed Checkpoint:记录了最近一次失败的 Checkpoint。
  • Latest Savepoint:记录了最近一次 Savepoint 触发的信息。
  • Latest Restore:记录了最近一次重置操作的信息,包括从 Checkpoint 重置和从 Savepoint 重置两种重置操作。

需要注意的是,这些统计信息会依赖 JobManager 的存活,如果 JobManager 发生故障关闭或者重置,这些统计信息都会置空。

2. History

History 页签保留了最近触发的 Checkpoint 统计信息,包括当前正在进行的 Checkpoint。

Checkpoint 统计信息包括:

  • ID:触发的 Checkpoint ID。每个 Checkpoint 的ID从1开始递增。
  • Status:当前 Checkpoint 的状态,包括 In Progress(进行中)、Completed(完成)、Failed(失败)。
  • Trigger Time:在 JobManager 上触发 Checkpoint 的时间点。
  • Latest Acknowledgement:JobManager 收到任何子任务的最新确认的时间(如果尚未收到确认,则为 n/a)。
  • End to End Duration:从触发到最后一次确认的持续时间(如果尚未收到确认,则为 n/a)。Checkpoint 一个完整的端到端时长由 Checkpoint 最后一个确认子任务确定。
  • Checkpointed Data Size:所有已确认子任务上的 Checkpoint 数据大小。如果启用了增量 Checkpoint,那么此值为 Checkpoint 增量数据大小。

通过点击 + 可以查看每个子任务的详细信息:

我们还可以通过如下参数来配置 History 中要保存的最近 Checkpoint 的数量,默认为10个:

# Number of recent checkpoints that are remembered
web.checkpoints.history: 15

3. Summary

Summary 页签记录了所有完成的 Checkpoint 统计信息的最大值、最小值以及平均值等。

统计信息中包括端到端时长、状态大小以及分配过程中缓冲的数据大小。

4. Configuration

Configuration 页签中包含 Checkpoint 中所有的基本配置信息,如下所示:

  • Checkpointing Mode:Exactly-Once 还是 At-Least-Once 处理语义。
  • Interval:Checkpoint 触发时间间隔。
  • Timeout:Checkpoint 超时时间。超时后,JobManager 会取消当前 Checkpoint 并触发新的 Checkpoint。
  • Minimum Pause Between Checkpoints:配置两个 Checkpoint 之间的最小时间间隔。当上一次 Checkpoint 完成后,需要等待该时间间隔才能触发下一次的 Checkpoint,避免触发过多的 Checkpoint 导致系统资源紧张。
  • Persist Checkpoints Externally:如果启用 Checkpoint,数据将将持久化到外部存储中。

具体如何配置,可以查阅Flink 检查点启用与配置

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Flink 状态管理与 Checkpoint 机制

    相对于其他流计算框架,Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存,并提供给后续的计算使用:

    zhisheng
  • Flink 状态管理与检查点机制

    相对于其他流计算框架,Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存,并提供给后续的计算使用:

    大数据真好玩
  • Flink——运行在数据流上的有状态计算框架和处理引擎

    Apache Flink® - Stateful Computations over Data Streams

    时间静止不是简史
  • 基于 Flink 构建关联分析引擎的挑战和实践

    随着云计算、大数据等新一代IT技术在各行业的深入应用,政企机构IT规模和复杂程度不断提高,网络流量、日志等各类数据规模大幅提升。与此同时,网络攻防日益激烈,网络...

    zhisheng
  • Flink Forward 2018 - 流计算平台的运维优化分享

    Flink Forward 是由 Apache 官方授权,用于介绍 Flink 社区最新动态、发展计划以及各一线大厂围绕 Flink 生态的生产实践经验的会议。...

    郑灿彬felixzheng
  • 为什么要学 Flink,Flink 香在哪?

    知道大数据的同学也应该知道 Flink 吧,最近在中国的热度比较高,在社区的推动下,Flink 技术栈在越来越多的公司开始得到应用。

    数据社
  • 全链路监控工具Pinpoint1.8.2部署

    简介 Pinpoint是一款全链路分析工具,提供了无侵入式的调用链监控、方法执行详情查看、应用状态信息监控等功能。基于GoogleDapper论文进行的实现,与...

    三杯水Plus
  • Cloudera中的流分析概览

    Cloudera流分析(CSA)提供由Apache Flink支持的实时流处理和流分析。在CDP上的Flink提供了具有低延迟的灵活流解决方案,可以扩展到较大的...

    大数据杂货铺
  • eBay | Flink在监控系统上的实践和应用

    Sherlock.IO是eBay现有的监控平台,每天要处理上百亿条日志、事件和指标。Flink Streaming job实时处理系统用于处理其中的日志和事件。...

    大数据真好玩
  • Flink 参数配置和常见参数调优

    ack 数据源是否需要kafka得到确认。all表示需要收到所有ISR节点的确认信息,1表示只需要收到kafka leader的确认信息,0表示不需要任何确认信...

    zhisheng
  • Apache Flink实战(一) - 简介

    Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计...

    JavaEdge
  • 《从0到1学习Flink》—— Flink 配置文件详解

    前面文章我们已经知道 Flink 是什么东西了,安装好 Flink 后,我们再来看下安装路径下的配置文件吧。

    zhisheng
  • 如何使用 Flink 每天实时处理百亿条日志?

    Sherlock.IO 是 eBay 现有的监控平台,每天要处理上百亿条日志、事件和指标。Flink Streaming job 实时处理系统用于处理其中的日志...

    zhisheng
  • Flink 全链路端到端延迟的测量方法

    FLink Job端到端延迟是一个重要的指标,用来衡量Flink任务的整体性能和响应延迟(大部分流式应用,要求低延迟特性)。

    zhisheng
  • [源码解析] 从TimeoutException看Flink的心跳机制

    本文从一个调试时候常见的异常 "TimeoutException: Heartbeat of TaskManager timed out"切入,为大家剖析Fli...

    罗西的思考
  • 如何基于Flink+TensorFlow打造实时智能异常检测平台?只看这一篇就够了

    AI 前线导读:Flink 已经渐渐成为实时计算引擎的首选之一,从简单的实时 ETL 到复杂的 CEP 场景,Flink 都能够很好地驾驭。本文整理自携程实时计...

    zhisheng
  • FLink在网易的实战案例

    摘要:本文由网易 Java 技术专家吴良波分享,主要内容为 Apache Flink 在网易的实践,文章提纲如下:

    Spark学习技巧
  • CSA安装部署

    我们在Cloudera的流分析系列中介绍了《Cloudera中的流分析概览》、《SQL Stream Builder的概览》和《CSA的部署方案》,今天我们来进...

    大数据杂货铺
  • 数仓大法好!跨境电商 Shopee 的实时数仓之路

    Shopee 是东南亚与台湾领航电商平台,覆盖新加坡、马来西亚、菲律宾、台湾、印度尼西亚、泰国及越南七大市场,同时在中国深圳、上海和香港设立跨境业务办公室。

    大数据学习与分享

扫码关注云+社区

领取腾讯云代金券