大型源数据的flink检查点

、

我想知道在k8s上滚动更新重新启动作业时，Flink中的检查点或保存点的恢复过程。下面让我解释一下简单的例子。假设我在我的flink k8s作业中有4个荚，并且使用parallelism 1有以下简单的数据流。假设过滤器由pod1管理，map为pod2，接收器为pod3，源分别为pod4。当根据滚动更新重新启动pod1 (过滤器)时，是否立即将源任务(其他任务)中的记录保存到外部

浏览 3提问于2022-10-13得票数 0

回答已采纳

1回答

Flink精确一次-接收器处的检查点和屏障确认

、、

我有一个Flink作业，它的接收器是将数据写入MongoDB。接收器是RichSinkFunction的实现。接收器在什么时候确认检查点屏障，在调用函数开始时还是在调用完成时？意味着它在确认障碍

浏览 3提问于2018-05-31得票数 1

1回答

Apache Flink中的端到端精确处理一次

、、、

Apache通过从检查点恢复作业来保证在故障和恢复时处理一次，检查点是分布式数据流和操作符状态的一致快照(Chandy-Lamport算法用于分布式快照)。此保证在故障转移时恰好是一次。在正常的集群操作中，Flink如何保证只处理一次，例如给定从外部源读取的Flink源(例如Kafka)，Flink如何保证事件从源读取一次？事件源和Flink<e

浏览 3提问于2020-09-30得票数 3

回答已采纳

1回答

我正在使用一个flink流应用程序，输入源是nfs文件系统，接收器是kafka生产者。我使用的是continousmonitoring功能，它会转发不支持parllelism的文件拆分和带有parllelism的continousFileOperator。我们拥有的初始数据是4TB的数据。对于初始传输，continousmonitorfunction功能需要很长时间才能准备好状态，但检查点在完成之前会一直过期。我能知道检查点<

浏览 16提问于2020-04-13得票数 0

1回答

从检查点恢复Apache Flink作业

、、

我正在使用Apache Flink + RabbitMQ堆栈。我知道有机会手动触发保存点并从中恢复作业，但问题是Flink在成功检查点后确认消息，如果您想要设置保存点和恢复状态，您将丢失上次成功的保存点和上次成功的检查点之间的所有数据。有没有办法从检查点恢复作业？这将解决在不可重放数据源(如rabbitmq)的情况下丢失数据的问题。顺便说一句，如

浏览 20提问于2016-09-13得票数 3

回答已采纳

1回答

确认Apache上的Google /Sub消息

、、、

LOG.info("hola amigo "+c.element()); }与在NodeJS上接收的消息相比，我得到了包含在data字段中的消息。我正在打印的属性映射是null。是否有其他方法来确认所有消息，而不必计算出ackId？

浏览 3提问于2017-05-16得票数 5

回答已采纳

2回答

Flink Kinesis使用者未存储上次成功处理的序列号

、、

我们正在使用Flink Kinesis Consumer将Kinesis流中的数据消费到我们的Flink应用程序中。 KCL库使用DynamoDB表来存储最后成功处理的Kinesis流序列号。因此，下次应用程序启动时，它将从中断的位置恢复。但是，Flink Kinesis Consumer似乎没有维护任何这样的序列号。在任何持久化存储中。因此，我们需要依靠ShardIteratortype (trim_horizen、latest等

浏览 16提问于2019-02-22得票数 3

2回答

正确地将Flink状态发送给Kafka

、、、

我正在构建一个卡夫卡-> Flink ->卡夫卡管道，它可以处理划定的“会话”数据。我输入的Kafka主题有以下格式的数据，并构成session_key的一个会话entry_event(session_key像这样的每个会话大约有100个事件，很快就会出现(每1-2秒)，所有事件共享相同的session_key，我正在将会话转换成一

浏览 7提问于2022-01-30得票数 0

回答已采纳

1回答

Flink Kafka消费者补偿在重新分配工作时被重置为0

、

我遇到的问题是，在重新启动Kafka和Flink作业时，FlinkKafkaConsumer偏移被重置为0，因此数据被重新处理，即使我启用了检查点，并且在Flink作业中启用了一次语义。这是我的环境细节在KubernetesKafka源主题下运行的有10个分区，没有replication.Kafka，有3个代理。启用Flink检查点时，semantics.Flink版本为1.12Flink

浏览 6提问于2022-01-25得票数 0

1回答

Apache Flink* -检查点数据大小在一段时间内不断增加*

、、

我在我的Flink应用程序(版本1.11.1)中使用了事件时间语义，该应用程序在AWS - kinesis分析中运行。此应用程序的源为kinesis stream，宿为Postgres。检查点间隔为10秒，因为在notifyCheckpointComplete()上触发了DB接收器。我使用多个CoProcessFunction和ValueState来连接不同的流，然后再将其发送到Postgres。观察到，检查点数据大小在一段时间内不断增长，而线程计数

浏览 20提问于2021-03-02得票数 0

1回答

flink是否为数据集批处理提供检查点

、

如何为flink批处理配置检查点。我有兴趣知道检查指针是如何在内部工作的。由于检查点每隔一段时间就会发生，如果作业在下一个点之前失败，那么如果它重新启动也不会有任何重复处理。flink是否检查每个操作员、接收器和源的检查点？

浏览 26提问于2020-05-10得票数 0

回答已采纳

1回答

Flink作业完成的保存点

我有一个usecase，其中我需要使用有界的RocksDB源为Flink应用程序(包括RocksDB状态和广播状态)种子，然后在种子播种完成后读取其他无界/有界的S3源。我试着用两个步骤来实现这一点：对于步骤1:

浏览 2提问于2022-11-11得票数 1

1回答

flink检查点由于jdbc写背压而失败

、

我有一个flink应用程序，它每30分钟查询一次数据库，进行一些转换并持久化到数据库中。我试图处理100 k记录，因为来自jdbc写任务、数据库查询任务和转换任务之一的背压没有得到检查点和超时。启用未对齐的检查点也不起作用。使用flink版本1.14.5，并行性15。128MB taskmanager.memory.task.off-h

浏览 6提问于2022-11-03得票数 0

1回答

如何在nfs文件系统中存储apache检查点

、

我正在使用Apache 1.10.0从RabbitMQ中提取数据流，现在在内存中使用默认的检查点配置。，但是现在我没有HDFS集群，我的Apache Flink运行在kubernetes集群中，如何在文件系统中存储我的检查点？我阅读了Apache的并告诉我它支持：可以重放记录一定时间的持久(或持久)数据源。这些源的例子是持久消息队列(例如Apache、Rab

浏览 5提问于2020-04-09得票数 0

回答已采纳

2回答

使用Google的信息并将其发布给Kafka

、、、、

我想使用KafkaIO将使用的消息写到Kafka。我想使用FlinkRunner来执行作业，因为我们在GCP之外运行这个应用程序。我面临的问题是，在GCP PubSub中，所消耗的消息没有得到ACK。我已经确认本地Kafka实例具有从GCP PubSub中使用的消息。GCP DataFlow中的文档表明，当管道被一个数据接收器终止时，数据包就会完成，在我的例子中，这就是Kafka。但是，由于代码在Apache中运行，而不是在GCP DataFlow中运

浏览 3提问于2020-11-08得票数 0

回答已采纳

1回答

创建检查点时出现闪烁

、、

我有一个flink工作，在创建检查点时卡住了。它几乎没有状态(除了一些kafka偏移量)。从我的指标中可以看到，所有这些都发生了，我得到了一些5xx (返回迭代源代码)，一些4xx (忽略)和很多2xx (转发到HDFS)。(Task.java:530)仔细观察源代码，我可以看到第二个线程(持有锁)似乎处于某种无休止的循环中：while (availableMemorySegments.

浏览 0提问于2020-05-19得票数 1

1回答

Flink (Kafka源代码)是如何管理抵消的？

、

我正在使用弗林克的FlinkKafkaConsumer09，我想知道卡夫卡消费者的补偿存储在哪里？我在动物园管理员和卡夫卡的偏移话题中找不到它们。而且卡夫卡-消费者补偿工具找不到。这是Flink内部处理的吗？

浏览 2提问于2017-01-28得票数 2

回答已采纳

2回答

Apache如何管理MQTT消费者补偿

、

我使用MQTT使用者作为flink作业的数据源。我想知道如何将数据偏移保存到检查点，以确保在flink集群发生故障后重新启动时不会丢失任何数据。我看到了很多介绍apache如何管理kafka消费者补偿的文章。有谁知道apache是否有自己的功能来管理MQTT使用者？谢谢。

浏览 24提问于2022-01-24得票数 0

2回答

Flink中的检查点事件时间水印

、、

我们正在接收来自no的事件。因此，到达我们的Flink拓扑(通过Kafka)的数据将是无序的。我们在Flink拓扑中创建1分钟的事件时间窗口，并在源操作符处生成事件时间水印(当前事件时间-某个阈值(30秒))。如果少数事件在设置的阈值之后到达，则这些事件将被忽略(在我们的情况下这是可以的，因为属于该分钟的大多数事件都已经到达并在相应的窗口中得到处

浏览 28提问于2018-03-02得票数 5

1回答

使用REST调用Flink有状态函数

、

我正在寻找通过REST POST/GET调用调用现有有状态函数的帮助/指针。不过，我正在寻找一个可用于的解决方案。谢谢

浏览 9提问于2022-03-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在K8S上为更新策略执行rollingUpdate时，Flink的恢复机制是什么？

Flink精确一次-接收器处的检查点和屏障确认

Apache Flink中的端到端精确处理一次

从检查点恢复Apache Flink作业

确认Apache上的Google /Sub消息

Flink Kinesis使用者未存储上次成功处理的序列号

正确地将Flink状态发送给Kafka

Flink Kafka消费者补偿在重新分配工作时被重置为0

Apache Flink* -检查点数据大小在一段时间内不断增加*

flink是否为数据集批处理提供检查点

Flink作业完成的保存点

flink检查点由于jdbc写背压而失败

如何在nfs文件系统中存储apache检查点

使用Google的信息并将其发布给Kafka

创建检查点时出现闪烁

Flink (Kafka源代码)是如何管理抵消的？

Apache如何管理MQTT消费者补偿

Flink中的检查点事件时间水印

使用REST调用Flink有状态函数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐