flink检查点E2E持续时间太长

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

checkpoint screenshot 一台机器需要很长时间来设置检查点，但与其他机器的状态大小大致相同，这是由于数据漂移还是其他原因？(数据按用户分组)

浏览 17提问于2020-10-29得票数 0

回答已采纳

0回答

Apache Flink 1.3.2与Kafka 1.1.0的连接问题

、、

我使用的是Apache Flink 1.3.2集群。我们正在使用Kafka消息，自从将代理升级到1.1.0 (从0.10.2)以来，我们经常在日志中注意到这个错误： ERROR o.a.flink.streaming.connectors.kafka.FlinkKafkaConsumerBase启用检查点(间隔10秒，超时1分钟，检查点之间的最小停顿时间为5秒，最大并发检查点数为1。平均E2E持续时间不到1秒，甚至不到半秒。)Kafka 0.10.2也使用了相同的设置

浏览 32提问于2018-07-21得票数 0

回答已采纳

1回答

为什么flink检查点的创建有这么大的不同？

在创建flink检查点时发生了什么？创建flink检查点的时间因因子10不同。这至少是职务经理日志文件告诉我的：2017-02-14 09:08:17,447 INFO org.apache.flink.runtime.che

浏览 2提问于2017-02-14得票数 1

回答已采纳

2回答

对检查点做出反应的Flink StatefulFunction？

我的有状态函数是将数据写入数据库，但它是不确定的，因此从检查点恢复可能会导致数据库包含不一致的数据。我的想法是在Flink的持久化状态下“缓冲”数据，只有在检查点完成后才将数据写入数据库。我想我可以通过使用context.sendAfter(Duration duration, Address address, Object input);来实现这一点，通过设置高于检查点间隔的持续时间。有没有更好的解决方案可以让函数显式地对检查点做出反应？

浏览 61提问于2020-08-24得票数 0

回答已采纳

1回答

flink检查点如何帮助故障恢复

、

我的flink作业使用FlinkKafkaConsumer010从kafka consumer读取数据，并使用CustomBucketingSink接收到hdfs。检查点持续时间和两个检查点之间的最小停顿是3分钟，我使用的是FsStateBackend。以下是我的假设： Flink从kafka消耗一些固定数量的事件(一次从多个分区获得多个偏移量)，并等待，直到它到达接收器，然后是检查点。在失败的情况下，flink转到以前的检查点状态，并指向kafka最

浏览 0提问于2020-03-12得票数 0

1回答

为什么检查点会对延迟产生如此大的影响？

、

我注意到，在使用内存后端时，使用检查点会意外地增加所观察到的延迟。考虑以下检查点：网络缓

浏览 3提问于2019-02-27得票数 2

回答已采纳

1回答

如果为flink的keyBy操作符提供distinct键，然后是翻滚窗口，会发生什么情况

、

我的flink作业有keyBy操作符，它以date~clientId(日期为yyyymmddhhMM，MM为分钟，5分钟后更改)为关键字。此操作符之后是5分钟的翻滚窗口。检查点持续时间和两个检查点之间的最小停顿时间为3分钟。3)窗口大小对检查点时间的影响。org.apache.flink.streaming.runtime.tasks.SystemProcessingTimeService$TriggerTas

浏览 1提问于2020-03-12得票数 0

1回答

Apache应用程序不创建检查点

、

它启用了带有默认设置的检查点。，但检查点是禁用的。只有当我将CheckpointInterval作为运行时属性传递给我的应用程序时，才会设置检查点。那么，是否有必要显式地传递这些值？该应用程序基本上从Kinesis读取窗口数据到一个固定的大小为30的持续时间，然后将数据发布回PubSub。.apply("Write to Pub/Sub", new PubSubWrite()));beam-sdks-java-core:2.31.0beam-runners-fl

浏览 4提问于2021-09-27得票数 0

3回答

Flink检查点随机失败

、

我在kubernetes做了一份Flink的工作。有时，由于检查点异常(在10分钟内超时)，我的工作会失败，大多数情况下只有一个操作符。我不明白异步持续时间(在图像中)的意义，以及为什么要花费最长的时间。Flink版本: 1.13.2提交: 5f007ff @ 2021-07-23T04:35:55+02:00 检查点间隔= 15分钟，启用未对齐检查点 第一次运行，吞吐量确实很高。在第一~40分钟内处理了超过3亿个数据点。然后，第三个检查

浏览 5提问于2021-09-13得票数 0

1回答

flink检查点时间与缓冲区对齐大小或对齐时间有何关系？

、、

我的流式flink作业的检查点时间平均为2-3s(15-20%的时间)和3-4分钟(8-12%的时间)和2分钟。我们有两个操作符，它们是有状态的。这两种方法使保存点的状态约为1-1.5 3gb，检查点的状态约为800MB-6 3gb(平均为3 3gb)。我们有30秒的翻滚处理窗口。检查点持续时间和两个检查点之间的最小停顿时间为3分钟。对于flink来说，有足够的cpu和内存。下面是我的疑虑： 1)即使与其他检查点状态相比，较少的检查点

浏览 1提问于2020-03-12得票数 0

1回答

Apache Flink* -增量检查点- CPs的意外大小*

在处理过程中添加了一些托管状态之后，我们发现尽管在RocksDb中使用了增量检查点，但检查点的大小和持续时间却出现了令人担忧的增长。为了隔离这个问题，我们用源、映射操作符和接收器创建了简单的拓扑。使用上面描述的设置，我们发送了1200个事件，检查点间隔和最小暂停设置为5秒。当事件以恒定的速度和相同的状态出现时，我们预计检查点的大小或多或少是恒定的。然而，我们观察到了检查点大小的线性增长峰值(最后一个峰值有将近120 of，接近于整个预期管理状态的大小)，其中的检查点较

浏览 0提问于2018-10-31得票数 1

回答已采纳

1回答

具有大状态的Apache Flink中的保存点

、

我想使用Rocksdb状态后端在Flink中保持大约2TB的状态。我将使用增量检查点，因此它将显著减少检查点时间。但是，由于状态较大，获取保存点的时间会太长。MTTR (平均恢复时间)对我来说非常重要。如何提高保存点性能？

浏览 24提问于2021-08-14得票数 1

1回答

什么可能会导致Apache Flink作业中的栅栏对齐持续时间较长？

、

我在YARN上运行我的Flink作业，我发现少量的子任务会遇到很长的对齐持续时间。可能导致此问题的原因是什么？

浏览 1提问于2018-08-14得票数 3

1回答

当flink运行超过12小时时，机器上CPU负载增加的原因

、、、

我有一个flink作业，并行度设置为6，很少有简单的转换，问题是当Flink运行超过12小时时，例如机器上的负载开始增加，然后我认为这是因为在一天中的某些小时内进入flink的流量，但问题是当流量下降时k.email_sha2) .addSink(new SinkFuncion()); Mi问题:例如，当我的flink洞察:堆内存看起来很好(没有对象模型)，检查点都完成了，没有丢失的事件，JVM消耗

浏览 84提问于2020-08-01得票数 0

1回答

Flink会自动检查AggregateFunction的状态吗?如何使用AggregatingStateDescriptor？

在<code>D1</code>之后，我正在实现一个<code>D0</code>来测量两个事件之间的持续时间。处理完第二个事件后，窗口将关闭。flink是否会自动对<code>D2</code>的状态设置检查点，以便累加器中的现有数据不会因重新启动而丢失？因为我对此不太确定。

浏览 43提问于2020-07-31得票数 0

回答已采纳

1回答

关于Flink的两个术语

事件时间与事件摄入时间之间的持续时间。我用了一个叫“排队时间”的词。我说的条件对吗？我目前正在撰写一些关于Flink的文档。

浏览 0提问于2019-06-28得票数 1

1回答

Flink删除花费太长时间的进程，并提交检查点

我正在使用Flink + Kafka来处理流文档。我已经在文档上设置了过滤器来阻止奇怪的文档进入Flink作业，但是仍然有一些类型的文档是我无法预见的。如果作业消耗了这些文档，则需要额外的时间。就像我在任务检查点中看到的那样，许多进程完成得很快，等待缓慢的进程完成(例如，在下面的图像中，除了一个)。我的问题是:我能让Flink在某些阈值之后放弃这些缓慢的进程，并提交那些已经完成的进程吗？我试图设置flink.job.checkpoint.timeout，但发现如果检查点超过超时，它将失败

浏览 3提问于2022-06-08得票数 0

回答已采纳

4回答

序列化对象时出现StackOverflowError

、、

我想用这个方法来序列化一个对象： ByteArrayOutputStream byteOutput = new ByteArrayOutputStream(); stream.writeObject(m); stream.clo

浏览 3提问于2012-11-24得票数 2

回答已采纳

1回答

Apache flink对水印空闲的理解以及与有界持续时间和窗口持续时间的关系

、、、

我有一个配置了Kafka连接器的Flink管道。对于源空闲持续时间，我选择120，表示如果该主题的任何Kakfa分区是数据不活动的，则在2分钟后将其标记为空闲，然后为其他活动分区发送水印。我的问题是关于这个数字的选择，即2分钟，以及它是否与窗口持续时间(60秒)或无序(30秒)有关。或者120是不是太长了，我可能会错过数据，因此我应该将其设置为比OutOfOrderness持续时间短得多的值，以确保0数据丢失？编辑:添加了更多代码

浏览 33提问于2021-07-08得票数 0

回答已采纳

2回答

如何避免大型事务的锁定？

、、、

我们有一个大型应用程序正在运行，这需要出于性能原因进行清理。然而，在设计应用程序时，这一点是不可忽视的。问题是，每当脚本运行时，应用程序本身就不会变得不可用:当从web获取数据或试图更新某个记录时，超时。所有这些查询都会被运行事务的会话阻塞。我尝试在不同的隔离级别(包括快照)运行事务，但仍然无法工作。我怎么才能避免这些锁

浏览 0提问于2013-09-04得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云