首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Flink作业群集Kubernetes从保存点恢复

Flink作业群集是指一组运行在Flink框架上的作业实例。Flink是一个开源的流处理和批处理框架,具有低延迟、高吞吐量和容错性等特点。它可以处理实时数据流和批量数据,并支持事件时间和处理时间的处理模式。

Kubernetes是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。它提供了一个可靠的集群管理机制,可以在多个主机上运行容器,并提供自动化的容器编排、服务发现和负载均衡等功能。

从保存点恢复是指在Flink作业执行过程中,将作业的状态保存到持久化存储中,并在需要时恢复到该保存点的状态。这样可以保证作业在发生故障或重启时能够从上一次保存点的状态继续执行,避免数据丢失和重新计算。

Flink作业群集可以通过Kubernetes来管理和部署。Kubernetes提供了强大的容器编排和管理能力,可以自动化地管理Flink作业的生命周期。通过使用Kubernetes,可以方便地扩展和管理Flink作业群集,提高作业的可靠性和可伸缩性。

在Flink作业群集中,从保存点恢复可以通过以下步骤实现:

  1. 创建保存点:在作业运行期间,可以手动或自动创建保存点,将作业的状态保存到持久化存储中。保存点可以包含作业的状态信息、数据源的位置和偏移量等。
  2. 恢复保存点:在需要恢复作业时,可以选择一个保存点进行恢复。Flink会从保存点中读取状态信息,并将作业的状态还原到保存点的状态。
  3. 重新计算:在恢复保存点后,Flink会从保存点的状态开始重新计算作业。它会根据保存点中的状态信息重新执行数据处理逻辑,确保作业的结果与保存点时的状态一致。

Flink作业群集Kubernetes从保存点恢复的优势包括:

  1. 容错性:通过保存点恢复,可以保证作业在发生故障或重启时能够从上一次保存点的状态继续执行,避免数据丢失和重新计算。
  2. 高可用性:使用Kubernetes管理Flink作业群集,可以实现作业的自动化部署和管理,提高作业的可用性和可靠性。
  3. 扩展性:Kubernetes提供了强大的容器编排和管理能力,可以方便地扩展和管理Flink作业群集,根据实际需求进行水平扩展和负载均衡。
  4. 灵活性:通过保存点恢复,可以在作业执行过程中随时恢复到之前的状态,方便进行调试和测试。

Flink作业群集Kubernetes从保存点恢复的应用场景包括:

  1. 实时数据处理:Flink作为一个流处理框架,可以处理实时的数据流,适用于需要实时计算和分析的场景,如实时监控、实时推荐等。
  2. 批量数据处理:Flink作为一个批处理框架,可以处理大规模的批量数据,适用于需要进行大规模数据处理和分析的场景,如离线数据分析、数据清洗等。
  3. 复杂事件处理:Flink提供了复杂事件处理(CEP)的功能,可以对事件流进行复杂的模式匹配和规则检测,适用于需要进行复杂事件处理的场景,如金融交易监控、网络安全分析等。

腾讯云提供了一系列与Flink作业群集Kubernetes相关的产品和服务,包括容器服务(TKE)、云原生应用管理平台(Cloud Native Application Management Platform,简称Tencent CAMP)等。您可以通过以下链接了解更多信息:

请注意,以上答案仅供参考,具体的产品和服务选择应根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

用户投稿 | Dinky 保存恢复 FlinkSQL 作业

导读:本文来自用户投稿,介绍了 Dinky 如何通过 SavePoint 来恢复 FlinkSQL 作业。...,在页面右上角点击三个的省略号按钮,弹出框中点击 “SavePoint停止”: 在 HDFS 中可以看到相关的 SavePoint 保存记录: 点击链接查看: 在Dinky 的运维中心,任务列表...,任务详情页面,作业快照sheet下面的SavePoint 这个 Sheet 下,也可以看到 SavePoint 保存的路径信息: 在 Dinky 的数据开发的作业中, 右边“保存”栏也可以查看到...重启作业 在 Dinky 的运维中心,任务列表,任务详情页面,重启任务;任务重启完成后,可以看到,FlinlSQL 作业实现了 SavePoint 中的状态恢复,找到 Kafka 的正确偏移,在任务停止期间进行...,不仅简化了 FlinkSQL 的开发调试,还集成了对 SavePoint 恢复作业运行的支持,非常方便。

51440

Cloudera中的流分析概览

您可以使用Flink大规模处理数据流,并通过流式应用程序提供有关已处理数据的实时分析见解。 Flink旨在在所有常见的群集环境中运行,以内存速度和任意规模执行计算。...任务的资源管理由Flink中的作业管理器完成。在Flink群集中,Flink作业作为YARN应用程序执行。HDFS用于存储恢复和日志数据,而ZooKeeper用于对作业进行高可用性协调。 ?...您可以使用Flink将应用程序的状态本地存储在状态后端中,以确保在访问已处理数据时降低延迟。您还可以创建检查点和保存,以在持久性存储上对流式应用程序进行容错备份。 ?...检查点和保存 可以创建检查点和保存,以使Flink应用程序在整个管道中容错。Flink包含一个容错机制,该机制可以连续创建数据流的快照。快照不仅包括数据流,还包括附加的状态。...如果发生故障,则选择最新快照,然后系统该检查点恢复。这保证了可以始终保持计算结果的一致性。当检查点由Flink创建和管理时,保存由用户控制。保存可以描述为已执行过程的备份。 ?

1.1K20

Flink1.5发布中的新功能

此外,新版本还简化了在容器管理基础设施(如 Kubernetes)上进行的部署,所有对 JobManager 的请求都通过 REST 发起,包括提交和取消作业、请求作业状态,获取保存等。...此次改进也为 Flink 将来与 Kubernetes 更好的集成奠定了基础。在稍后的版本中,有可能在不先启动 Flink 集群的情况下,将作业塞进 Docker,并作为容器部署的一部分。...当然,广播状态也可以有保存或进行保存恢复,就像 Flink 的其他状态一样,也具有一次性(exactly once)状态一致性保证。...Flink 现在支持 OpenStack 的类 S3 文件系统 Swift,用于保存检查点和保存。Swift 可以在没有 Hadoop 依赖的情况下使用。...应用程序可以在无需手动触发保存的情况下进行伸缩。实际上,Flink 仍然会保存一个保存,然后停止应用程序并重新调整并行度。

1.3K20

Flink1.7到1.12版本升级汇总

恢复保存时对模式迁移的新支持 使用Flink 1.7.0,我们在使用AvroSerializer时添加了对更改状态模式的支持。...保存兼容性 TraversableSerializer 此序列化程序(FLINK-11539)中的更新,包含Scala的Flink 1.2中的保存点将不再与Flink 1.8兼容。...考虑这个例子:如果你有一个正在消耗topic的Kafka Consumer A,你做了一个保存,然后改变你的Kafka消费者而不是topic消费B,然后保存重新启动你的工作。...同时,这一版本还推出了 State Processor API,这是社区最迫切需求的功能之一,该 API 使用户能够用 Flink DataSet 作业灵活地读写保存。...细粒度批作业恢复 (FLIP-1) 批作业(DataSet、Table API 和 SQL) task 失败中恢复的时间被显著缩短了。

2.5K20

超详细,Windows系统搭建Flink官方练习环境

不管这种多样性如何,Flink群集的基本组成都相同,并且适用类似的操作原理。 如何快速的搭建一套Flink与Kafka的本地环境,供我们开发学习使用呢?...Flink官网提供了一个环境,在这个环境中可以学习如何管理和运行Flink Jobs。可以学习如何部署和监视应用程序,体验Flink如何作业失败中恢复,以及执行日常操作任务,例如升级和缩放。...Flink官方提供了一套学习环境,本文将详细介绍这套环境的搭建与使用过程。 此环境由一个Flink 集群和一个Kafka群集组成。...Flink群集始终由一个Flink Master 和一个或多个 Flink TaskManager 组成。Flink Master负责处理作业提交,作业的监督以及资源管理。...Flink TaskManager是工作进程,负责执行构成Flink作业的实际任务执行。 启动时,名为Flink Event Count的Flink作业将提交给JobManager。

3.3K30

Too old resource version 引起 Flink JobManager 崩溃的问题定位

该问题会触发 ResourceManager 对 JobManager 的重新初始化过程,作业也会最近的一次 Checkpoint 恢复。...但是如果没有配置 HA(High Availability,高可用)时,Flink 就无法正常恢复作业,造成运行中关键状态的丢失,这对线上业务是无法接受的。...毕竟,这种可恢复的异常,可能会在一个长期运行作业的运行周期内多次出现,平台方需要考虑到细粒度的容错,令客户的作业能够长期平稳运行。...后来我们偶然间发现,重启 API Server 服务可以复现该问题,因为新启动的 API Server 会 etcd 中获取当前最新 resourceVersion,如果客户端后续用保存的旧值请求的话...我们还在作业运行期间模拟单个和多个 TaskManager Pod 崩溃的场景,也可以正常地重新分配新的 Pod 并自动恢复作业,说明 Kubernetes Client 与服务端的后续通信都是正常的。

2.8K70

CSA部署方案

仅使用Flink的DataStream应用程序。在这种情况下,您需要创建一个Flink应用程序集群。 将Flink与SQL Stream Builder结合使用的SQL Streaming应用程序。...在这种情况下,您需要创建一个Streaming SQL群集。 您可以使用以下工作流程来了解部署过程: ?...您需要根据强制依赖性将Flink Gateway和HistoryServer角色分配给主机。 Flink作业作为YARN应用程序执行。...HDFS用于存储恢复和日志数据,而ZooKeeper用于作业的高可用性协调。在标准布局中,Apache Kafka群集通常位于执行Flink群集的YARN群集附近。...但是由于其与Flink的依赖关系,您还需要在群集上添加YARN、HDFS和Zookeeper作为强制性服务。您需要以与分配Flink角色相同的方式分配SSB角色。

78140

Apache Flink on Kubernetes运行模式分析

在提交作业之前,必须先创建好Flink session集群。...; 2)用户可以将Flink作业Jar包和classpath依赖打包到自己的镜像里; 3)作业运行图由Flink Master生成,所以无需通过RestClient上传Jar包(图2步骤3)。...而通过Flink-operator,我们可以把Flink集群描述成yaml文件,这样,借助Kubernetes的声明式特性和协调控制器,我们可以直接管理Flink集群及其作业,而无需关注底层资源如Deployment...自定义保存 用户可以指定autoSavePointSeconds和保存路径,flink operator会自动为用户定期保存快照。 自动恢复 流式任务往往是长期运行的,甚至2-3年不停止都是常见的。...用户可以指定任务重启策略,当指定为FromSavePointOnFailure,flink operator自动最近的保存重新执行任务。

2.2K70

Flink 细粒度资源管理新特性解读

四、资源分配策略 在本节中,我们将讨论Flink运行时中的slot分区机制和资源分配策略,包括Flink运行时如何选择TaskManager来切割slot,以及如何在本机Kubernetes和Thread...当没有足够可用资源的TaskManager时,Flink将在本机Kubernetes或Thread上部署时尝试分配新的TaskManager。...在当前策略中,Flink将根据用户的配置分配相同的TaskManager。由于TaskManager的资源规格是预定义的: 群集中可能有资源片段。...slotmanager.redundant-taskmanager-num用于启动冗余taskmanager以加快作业恢复。此配置选项目前不会在细粒度资源管理中生效。 不支持均匀分布的slot策略。...细粒度资源管理和群集的第一个版本不支持此策略。均匀分布的slot目前不会在其中生效。 与Flink的Web UI的集成有限。细粒度资源管理中的slot可以具有不同的资源规格。

85070

Flink RocksDB State Backend:when and how

它始终存储在本地内存中(有可能溢出到磁盘中),并且在作业失败而不会影响作业恢复性的情况下可能会丢失。...状态快照(即检查点[3]和保存[4])存储在远程持久性存储中,用于在作业失败的情况下还原本地状态。选择适合生产部署的状态后端取决于系统的可伸缩性,吞吐量和延迟要求。 什么是RocksDB?...因此,state.checkpoints.dir[10]或者您在代码中为特定作业设置的参数可以位于不同的位置,例如本地HDFS[11]群集或基于云的对象存储,例如Amazon S3[12],Azure...优化RocksDB Flink 1.10开始,Flink默认将RocksDB的内存分配配置为每个任务slot的托管内存量。...[4] 保存: https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/savepoints.html#what-is-a-savepoint-how-is-a-savepoint-different-from-a-checkpoint

2.9K31

【译】如何调整ApacheFlink®集群的大小How To Size Your Apache Flink® Cluster: A Back-of-the-Envelope Calculation

Robert所涉及的主题之一是如何粗略地确定Apache Flink集群的大小。 Flink Forward的与会者提到他的群集大小调整指南对他们有帮助,因此我们将他的谈话部分转换为博客文章。...示例Flink流式处理作业和硬件 ? 示例Flink Streaming作业拓扑 对于此示例,我将部署一个典型的Flink流式作业,该作业使用Flink的Kafka使用者Kafka主题读取数据。...到目前为止,我只查看了Flink正在处理的用户数据。 您需要将存储状态和检查点保存在RocksDB中而进行的磁盘访问的开销包括在内。 要了解磁盘访问成本,请查看窗口运算符如何访问状态。...如果计算机或其他任何其他设备出现故障,您需要恢复窗口内容并继续处理。 检查点设置为每分钟一个检查点的间隔,每个检查点将作业的整个状态复制到网络附加文件系统中。...这为我所掩盖的复杂性保留了大约40%的网络容量,例如网络协议开销,检查点恢复时事件重放期间的高负载,以及由数据偏差导致的集群内不均衡的负载平衡。

1.7K10

Flink吐血总结,学习与面试收藏这一篇就够了!!!

Flink Flink 核心特点 批流一体 所有的数据都天然带有时间的概念,必然发生在某一个时间。把事件按照时间顺序排列起来,就形成了一个事件流,也叫作数据流。...转化为ExecutionGraph,调度Task的执行,并处理Task的异常) InputSplit 分配 结果分区跟踪 作业执行异常 作业Slot资源管理 检查点与保存 监控运维相关 心跳管理 Task...Exaacly-Once (端到端严格一次) 保存恢复 算子顺序的改变,如果对应的UID没变,则可以恢复,如果对应的UID变了则恢复失败。...作业中删除了一个有状态的算子,默认需要恢复保存点中所记录的所有算子的状态,如果删除了一个有状态的算子,保存恢复的时候被删除的OperatorID找不到,所以会报错,可以通过在命令中添加-allowNonRestoredState...添加和删除无状态的算子,如果手动设置了UID,则可以恢复保存点中不记录无状态的算子,如果是自动分配的UID,那么有状态算子的UID可能会变(Flink使用一个单调递增的计数器生成UID,DAG改版,计数器极有可能会变

74220

Flink1.4 外部检查点

外部检查点 Externalized Checkpoints 默认情况下检查点不会持久化存储在外部系统中,只是用来故障中恢复作业。当一个程序被取消时它们会被删除。...但是,你可以配置检查点定期持久化存储在外部系统中,类似于保存(savepoints)。这些外部持久化的检查点将其元数据写入持久性存储中,即使在作业失败时也不会自动清除。...这样,如果你的作业失败时,你会有一个检查点用于恢复作业。...2.3 外部检查点恢复 作业可以通过使用检查点的元数据文件外部检查点中恢复,就像保存恢复一样(请参阅保存恢复)。...Checkpoints 外部检查点 savepoints 保存 原文:https://ci.apache.org/projects/flink/flink-docs-release-1.4/ops

1.4K20

Flink如何实现新的流处理应用第二部分:版本化状态

保存:版本化状态 在 Flink 中,我们引入了保存功能,可以解决上述问题以及未来更多问题。保存可以正在运行的 Flink 作业上获取,实质上是在一个时间上定义可以外部访问的作业的快照。...要从保存恢复作业,只需运行如下即可: flink run -s pathToSavePoint jobJar 使用保存,不必从头开始重新读取事件流以重新填充 Flink 作业的状态,因为你可以随时获取一致性快照并从该检查点恢复...他们都可以用来恢复作业。举个例子,利用 t1 时间保存,我们使用修改了的应用程序代码来恢复作业,创建 v1 作业。在时间 t3 和 t4,分别从版本 v0 和 v1 获取更多的保存。...通过获取作业保存,使用新的代码保存重新启动,下游应用程序看不到任何差异。...Flink 版本升级:升级 Flink 本身也变得更容易,因为你可以获取正在运行数据流的保存并使用升级后的 Flink 版本保存重新读取它们。

68820

聊聊Flink必知必会(六)

JobManager JobManager有许多与协调Flink应用程序的分布式执行相关的职责:它决定何时调度下一个任务(或一组任务),对完成的任务或执行失败做出反应,协调检查点,协调故障恢复,等等。...Flink为不同的环境和资源提供商(如YARN、Kubernetes和独立部署)实现了多个resourcemanager。...Flink Application Execution Flink应用程序是main()方法中生成一个或多个Flink作业的任意用户程序。...作业提交是一个一步到位的过程:不需要先启动Flink集群,然后将作业提交到现有的集群会话; 相反,可以将应用程序逻辑和依赖项打包到一个可执行的作业JAR中,集群入口(ApplicationClusterEntryPoint...资源隔离: 在Flink应用程序集群中,ResourceManager和Dispatcher的作用域为单个Flink应用程序,这比Flink会话集群提供了更好的关注分离。

18810

Flink1.4 检查点启用与配置

检查点允许 Flink 在流中恢复状态和位置,为应用程序提供与无故障执行相同的语义。 关于 Flink 流式容错机制背后的技术请参阅流式容错的详细文档。 1....前提条件 Flink 的检查点机制与流和状态的持久存储进行交互。一般来说,它要求: 一个可持久化(或保存很长时间)的数据源,可以重放特定时间段的记录。...(5) 外部检查点externalized checkpoints:可以配置定期检查点持久化到外部存储中。外部检查点将其元数据写入持久性存储,作业失败时也不会自动清理。...这样,如果你的作业失败,你将会有一个检查点用来恢复。有关外部检查点的部署说明中有更多详细信息。...有关可用状态终端以及作业范围和群集范围内配置选项的的详细信息,请参阅状态终端。 5. 迭代作业中的状态检查点 目前 Flink 只为无迭代作业提供处理保证。在迭代作业上启用检查点会导致异常。

1.9K30
领券