了解Kafka检查点

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在尝试理解Kafka Stream检查点背后的想法。是不是只是一个消费者端管理抵销信息？或者还有更多的原因。任何解释细节的链接都会很有帮助。

浏览 37提问于2020-04-04得票数 2

1回答

我有一个长期运行的结构化流媒体作业，它消耗了几个Kafka主题，并在滑动窗口上聚合。我需要了解如何在HDFS中管理/清理检查点。我找不到任何关于Spark如何管理/清理检查点的文档。以前，检查点存储在s3上，但由于要读/写大量的小文件，这被证明是非常昂贵的。query = formatted_stream.writeStream \ .format("kafka") \.outputMode

浏览 34提问于2019-01-07得票数 2

回答已采纳

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。 .format("kafka我在HDFS中创建了一个目录来存储检查点文件。我将这个位置提供给我用来调用spark代码的spark submi

浏览 7提问于2020-07-08得票数 3

1回答

在执行纱线应用程序杀死并再次运行后，flink是否会从上一次偏移恢复？

、、

我使用FlinkKafkaConsumer来使用kafka并启用检查点。现在，我对偏移管理和检查点机制有点困惑。我已经知道flink将开始从使用者组的. https://ci.apache.org/projects/flink/flink-docs-stable/dev/connectors/kafka.html#kafka-consumers-start-position-configuration读取分区，并且偏移量将存储

浏览 6提问于2019-11-04得票数 2

回答已采纳

2回答

spark kafka集成检查点重用

、、

我使用来自的方法2，我使用检查点，当我必须更改代码，并重新部署我的代码时，有时检查点会抛出异常，如果由于某种原因，我必须删除检查点目录，我如何重用检查点目录文件夹来从kafka获取消息，我认为检查点目录存储了kafka偏移量。

浏览 5提问于2016-03-31得票数 1

1回答

Flink (Kafka源代码)是如何管理抵消的？

、

我正在使用弗林克的FlinkKafkaConsumer09，我想知道卡夫卡消费者的补偿存储在哪里？这是Flink内部处理的吗？

浏览 2提问于2017-01-28得票数 2

回答已采纳

2回答

正确地将Flink状态发送给Kafka

、、、

我输入的Kafka主题有以下格式的数据，并构成session_key的一个会话entry_event(session_key要构建这些事件，我需要了解整个会话，因此需要等待end_event到达，以便能够运行处理并将输出事件推送到输出主题。实现非常简单--由session_key实现，将start_event存储到ValueState中，将条目存储到ListState中，然后当end_event到达时，对所有事件运行处理逻辑，并将结果推入输出Kafka</em

浏览 7提问于2022-01-30得票数 0

回答已采纳

2回答

在Kafka中解释复制-偏移-检查点和恢复点偏移量

、、

root@a2md23297l:/tmp/kafka-logs 1# cat恢复-点偏移-检查点5kafkatopic_R2P1_1 0%0kafkatopic_R2P10%0root@a2md23297l:/tmp/kafka-logs 1# cat复制-偏移-检查点5kafkatopic_R2P1_1 0 2 我的主题10 0

浏览 3提问于2016-02-15得票数 6

回答已采纳

2回答

Flink和SparkStreaming中检查点机制的不同

、、

使用来自Kafka主题的数据，Flink和SparkStreaming都提供了检查点机制，前提是auto.commit.enabled设置为false。火花博士说：在启用了Flink的检查点之后，Flink Kafka消费者将使用来自某个主题的记录，并定期检查其所有Kafka偏移量，以及其他操作的状态，以一致的方式。如果作业失败，Flink将恢复流程序到最新检查点的状态，并重新使用Kafka的记录，从存储在检

浏览 6提问于2017-12-12得票数 1

1回答

flink检查点如何帮助故障恢复

、

我们有平均300万/分钟事件的kafka输入，高峰时间大约2000万/分钟的事件。检查点持续时间和两个检查点之间的最小停顿是3分钟，我使用的是FsStateBackend。以下是我的假设： Flink从kafka消耗一些固定数量的事件(一次从多个分区获得多个偏移量)，并等待，直到它到达接收器，然后是检查点。在kafka将事件交给其他运营商之后，进行了多个转换，而kafka消费者则处于闲置状态，直到它得到它发送的事件的成功确认。在失败的情况下，flin

浏览 0提问于2020-03-12得票数 0

0回答

Apache Flink 1.3.2与Kafka* 1.1.0的连接问题*

、、

我们正在使用Kafka消息，自从将代理升级到1.1.0 (从0.10.2)以来，我们经常在日志中注意到这个错误：org.apache.kafka.clients.consumer.RetriableCommitFailedException: Offset启用检查点(间隔10秒，超时1分钟，检查点之

浏览 32提问于2018-07-21得票数 0

回答已采纳

1回答

用于Kafka处理程序的Oracle GoldenGate大数据适配器

、

我的问题是关于使用replicat的Kafka检查点，例如，在Kafka生产者异步模式下，replicat移动到1到100个操作，假设kakfka处理了80个操作，81个Kafka关闭了一个小时。在Kafka上线后，replicat必须从第81个操作重新定位。Kafka处理程序是如何发生的，因为我在GG bigdata适配器oracle网站上没有看到任何检查点和比较逻辑。

浏览 7提问于2018-10-03得票数 0

4回答

Kafka结构化流检查点

、、

我正在尝试从Kafka做结构化流媒体。我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录中获取最新的偏移量，并在该偏移量之后加载数据。我将检查点存储在一个目录中，如下所示。) \ .option("checkpointLocation", 'checkpoints\

浏览 3提问于2017-10-07得票数 4

1回答

火花结构流批式读取检查点

、

我遇到的一个更困难的概念是检查点，以及Spark如何使用它从失败中恢复。checkpointLocation", checkpointLocation) .parquet(getS3PathForTopic(topicName));这表示上一次

浏览 5提问于2021-10-14得票数 1

回答已采纳

1回答

Flink检查点状态始终在进行中。

、

我使用datastream连接器KafkaSource和HbaseSinkFunction，使用kafka提供的数据并将其写入hbase。我启用检查点如下：env.enableCheckpointing(3000,CheckpointingMode.EXACTLY_ONCE); kafka中的数据已经成功地写入了hbase，但是ui页面上的检查点状态仍在Flink版本:1.13.3，Hbase版本:1.3.1，Kafka版本:0.10.2

浏览 14提问于2021-12-22得票数 0

1回答

我真的需要Flink检查点吗？

、

我有一个Flink应用程序，它从Kafka读取一些事件，从MySQL中丰富数据，使用窗口函数缓冲数据，并将窗口中的数据写入HBase。我目前已经启用了检查点，但它被证明是相当昂贵的检查点，随着时间的推移，它需要越来越长的时间，并影响我的工作的延迟(落后于kafka摄取率)。如果我想出一种方法让我的HBase写成幂等，有没有充分的理由让我使用检查点？我可以配置内部的kafka消费者客户端，让它经常提交一次，对吗？

浏览 9提问于2019-10-08得票数 0

1回答

从最新偏移量恢复结构化流

、

我想从Kafka源创建Spark结构化流式作业读取消息，写入Kafka接收器，失败后将恢复只读取当前，最新的消息。出于这个原因，我不需要为我的工作设置检查站。但它看起来没有选项来禁用检查点，而写入到Kafka接收器的结构化流。据我所知，即使我指定了源代码：只有在第一次运行流时才会考虑它，并且在出现故障后，流将从检查点恢复。有什么变通方法吗？有没有办法禁用检查点呢？

浏览 2提问于2020-06-23得票数 0

1回答

HW和LEO储存在卡夫卡哪里？

我认为它们不能简单地存储在RAM中，因为Kafka broker可能会重新启动。那他们在哪？它们是在动物园管理员那里，还是在文件里？

浏览 1提问于2020-12-04得票数 1

回答已采纳

2回答

如何在apache beam中使用flink runner执行检查点操作？

、、、

我正在阅读一个非绑定来源( Kafka )，并将它的字数写到其他Kafka主题中。现在我想在beam Pipeline中执行检查点。我遵循了apache beam文档中的所有说明，但即使在此之后也不会创建检查点目录。500--retainExternalizedCheckpointsOnCancellation=true 有人能帮我解决检查点问题吗

浏览 37提问于2020-07-06得票数 3

1回答

AccessDeniedException for Kafka* 3默认state.dir*

、、

当我们在Windows 10上运行Kafka时，每5秒就会出现以下错误。未能将偏移量检查点文件写入C:/tmp/kafka/user/ global /.检查点，用于全局存储：{}。如果操作系统清除了state.dir，当它位于(默认)${java.io.tmpdir}/kafka目录时，可能会发生这种情况。改变state.dir的位置可以解决这个问题。java.nio.file.AccessDeniedException: C:/t

浏览 4提问于2022-03-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云