Flink执行dataflow两次

是指Apache Flink在执行数据流处理任务时，可能会出现数据处理的重复执行情况。这种情况可能由于Flink的容错机制引起，当任务执行过程中发生故障或者数据丢失时，Flink会自动进行任务重启和数据恢复，以确保数据处理的准确性和完整性。

具体来说，Flink的容错机制是通过将数据流划分为有界的数据块（checkpoint）来实现的。当任务执行到某个checkpoint时，Flink会将当前的数据状态保存下来，包括输入数据、中间计算结果等。如果任务执行过程中发生故障，Flink可以根据保存的checkpoint信息进行任务的恢复，从而保证数据处理的连续性。

然而，在进行任务恢复时，Flink可能会出现数据处理的重复执行情况。这是因为在故障发生前的最后一个checkpoint之后的数据可能已经被处理过一次，但由于故障发生导致任务回滚到了之前的checkpoint状态，因此这部分数据需要重新进行处理。这样就导致了数据处理的重复执行。

为了解决这个问题，Flink引入了幂等性操作的概念。幂等性操作是指对同一数据进行多次操作，最终的结果与进行一次操作的结果相同。在Flink中，可以通过设计幂等性的数据处理逻辑来避免数据处理的重复执行。例如，在数据写入数据库的场景中，可以使用数据库的幂等性操作（如使用唯一键或者乐观锁）来确保同一数据只会被写入一次，从而避免重复写入。

总结起来，Flink执行dataflow两次是由于其容错机制引起的，当任务发生故障或者数据丢失时，Flink会进行任务重启和数据恢复，可能导致数据处理的重复执行。为了解决这个问题，可以设计幂等性的数据处理逻辑来避免重复执行。

页面内容是否对你有帮助？

有帮助

没帮助

Flink执行dataflow两次

我是Flink的新手，我使用的是DataSet应用编程接口。经过一大堆处理之后，作为最后一个阶段，我需要通过将其中一个值除以其最大值来对其进行标准化。这是可行的，但是所有的处理都要执行两次。执行一个作业来查找最大值，然后执行另一个作业来创建最终结果(从头开始执行)...是否有解决方法使整个数据流只执行一次？

浏览 24提问于2016-08-23得票数 1

回答已采纳

1回答

如何使用AWS EMR上的Apache Flink安全地更新正在运行的作业？

、、

我看到了有关如何使用保存点的Flink文档。我希望有一个简单的解决方案来更新AWS EMR中的Flink作业。https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/deployment/aws.html https://ci.apache.org/projects/flink/flink

浏览 28提问于2020-06-11得票数 1

1回答

运行一个流式传输管道，其中我使用avroIO流式传输来自gcs的文件/记录，然后创建每分钟/每小时的存储桶来聚合事件并将其添加到BQ中。如果管道失败，我如何正确恢复并仅处理未处理的事件？我不想重复计算事件。我认为一种方法是写入扳手或bigtable，但可能是写入BQ成功，但DB失败，反之亦然？如何在流式管道中以可靠一致的方式维护状态，以便仅处理未处理的事件？我想确保BQ中的最终聚合数据是不同事件的确切计数，而不是计数不足或计数过多？spark streaming pipeline如何解决这个问题(我知道他们有一些检查点目录来管理查询和数据帧的状态)？有什么推荐的技术可以准确地解决流水线中的这类

浏览 26提问于2018-01-19得票数 0

2回答

使用GlobalWindow在Beam中进行状态垃圾回收

、、

Apache Beam最近通过StateSpec和@StateId注释引入了，并在Apache Flink和Google Cloud Dataflow中提供了部分支持。我还对Apache Flink或Google Cloud Dataflow中是否支持潜在的解决方案感兴趣。Flink和direct runners似乎有一些“状态GC”的代码，但我不太确定它是做什么的，以及它在使用全局窗口时是否相关。

浏览 18提问于2017-03-14得票数 3

回答已采纳

2回答

apache beam for python是否在商业上支持flink runner？

apache beam for python现在支持flink runner吗？或者甚至是便携式跑步器？beam for java是否得到了flink runner的商业支持？

浏览 1提问于2019-03-22得票数 1

2回答

在两种不同的方法上循环遍历结果集

我执行一个查询，并将其传递给一个类，并将其存储为一个私有变量。第一种方法有效，第二种方法不起作用。<?";$dataFlow = new DataFlow($results); 现在，如果我编辑它以包含本地的查询执行..。它可以工作 <?&

浏览 4提问于2017-09-25得票数 0

回答已采纳

1回答

控制数据流/Apache波束输出分片

、、

我们在实验中发现，在Dataflow/Apache束管道中设置一个显式的输出碎片会导致更糟糕的性能。我们的证据表明，Dataflow在最后秘密地做了另一个GroupBy。我们已经转移到让Dataflow自动选择碎片# (shards=0)。但是，对于某些管道来说，这会导致大量相对较小的输出文件(~15K文件，每个文件都<1MB)。是否有向Dataflow发送有关预期输出大小的提示，以便相应地进行缩放？我们注意到，这个问题主要发生在输入数据集相当大且输出要小得多时。我们正在使用ApacheBeamPytho

浏览 0提问于2018-03-27得票数 7

回答已采纳

1回答

如何使用数据流并行读取pubsub源文件

、

我曾经在流水线上工作过，它以flink为流引擎，kafka为源，因为我们可以在flink中设置并行性，以便从kafka读取消息，这样消息处理可以并行进行，而不是顺序进行。我想知道在pubsub->dataflow中是否也可以这样做，或者它只按顺序读取消息。

浏览 2提问于2019-03-26得票数 0

1回答

RemoveEntryList中BSOD与Bug检查0x139

、、、、

我们使用WinDBG进行了调试，发现根本原因是RemoveEntryList，Bug检查代码告诉我们我们已经调用了RemoveEntryList两次。见。但是，为什么即使调用RemoveEntryList两次以删除相同的条目，本机COM也不触发BSOD？谁能帮我弄明白原因吗？谢谢。

浏览 3提问于2017-07-26得票数 0

回答已采纳

1回答

Apache Beam中基于元组的窗口

、、

这在Flink中很容易做到：但从Beam (或DataFlow)的文档中还不清楚如何做到这一点。

浏览 2提问于2017-05-01得票数 0

1回答

为梯度增强库分发是什么意思？

、、

我正在查看XGBoost文档，并且声明XGBoost是一个优化的分布式梯度增强库。祝您今天愉快

浏览 0提问于2018-11-15得票数 9

回答已采纳

1回答

apache梁中的动态管道

到目前为止，我正在根据输入和输出将每个转换压平成一个转换的顺序列表，并通过每个管道步骤，如果它被配置或者只是跳过，它就执行转换。

浏览 5提问于2021-02-27得票数 3

1回答

Apache_beam--python --错误:需要下列参数：--输出路径

、、

触发器-直接_runner_bundle_重复DIRECT_RUNNER_BUNDLE_REPEAT -数据流_worker_jar DATAFLOW_WORKER_JAR-数据流_job_ DATAFLOW_JOB_FI

浏览 9提问于2022-06-02得票数 0

回答已采纳

1回答

如何在Apache Beam中实现类似于Spark累加器的变量

在Spark中，这将非常简单，我将创建一个累加器变量，所有的执行器以及驱动程序都可以访问该变量。由于光束被设计为在多个平台上运行，Spark，Flink，Google Dataflow，它不提供此功能。有谁知道实现这一点的方法吗？

浏览 16提问于2021-09-10得票数 0

1回答

的备用管道运行程序

、、

我读到了，Google管道运行程序，以及运行在Flink上的。目前还不清楚Cloudera是否同时实现了批处理流和窗口流，其中一篇文章拒绝，但其他帖子似乎没有提及，好像它已经包括在内，而Data明确表示Flink正在进行流媒体支持。是否有来自Google或其他Dataflow维护人员的页面，其中列出了所有现有的备用管道运行程序？与此不同的是，有人愿意维护一个规范的实现项目列表吗？

浏览 2提问于2015-09-15得票数 0

回答已采纳

1回答

如何将hbase-site.xml传递给模板

、、、

我们有一个在Google云上运行的Hbase集群的设置，并且使用Dataflow，我想写到Hbase表中。但是，我无法找到将资源文件传递给Dataflow模板的选项。在数据流中是否有类似于星火中的--files或Flink中的--classpath的选项来添加这个选项。

浏览 3提问于2022-05-13得票数 0

1回答

Flink python作业执行失败

、

我有一个设置了3个节点的flink集群。在web界面中，我看到3个任务管理器、3个任务槽和3个可用任务槽。我正在尝试运行一个简单的字数统计，它非常确定地失败了三次中的两次。Check log-files for details.python: can't open file '/data/tmp/flink/flink-dist-cache-9fc4a122-1f21-4930-a998-db31129b4596/a68369119ce030c8ca4

浏览 0提问于2017-07-21得票数 0

回答已采纳

1回答

flink流是否具有缓存/持久化功能？(如火花)

、、、

我有一个Flink流程序，在经过长时间转换逻辑之后，它具有分支处理逻辑。长转换逻辑会被多次执行吗？output1.addSink(sink1); output2.addSink(sink2); 问题：将执行多少次一次或两次?如果执行两次，如何缓存tempStream (或其他方法)以避免多次执行以前的转换？<代码>F 210</code>

浏览 0提问于2021-06-02得票数 0

2回答

链接:对于嵌套的RowRowConverter，DataTypes似乎失败了

、、

我试图从本地加载一个复杂的JSON文件(多个不同的数据类型、嵌套的对象/数组等)，使用将它们作为源代码读取，然后将它们放到DataStream中，然后执行一些操作(为了简洁起见，此处不显示)。works，将一直深入到ArrayObjectArrayConverter::allocateWriter()然而，由于一些奇怪的原因，RowRowConverter::toInternal运行了两次env.execute()因此，我想知道：为什么RowRowCo

浏览 27提问于2022-03-04得票数 1

2回答

优化内存密集型数据流管道的GCP成本

、、

我们希望在GCP Dataflow中提高运行特定Apache管道(Python )的成本。我们已经构建了一个内存密集型的Apache管道，它需要在每个执行器上运行大约8.5GB的RAM。当监视运行Dataflow作业的Compute引擎实例时，很明显，它们正在耗尽内存。数据流试图两次在内存中加载模型--每个vCPU一次--但可用内存仅够一个。我们可以想到的另一个解决方案是尝试改变Dataflow执行器与Compute引擎VM的比率。这将使我们能够找到一个比率，在此比率中，我们将尽可能少

浏览 5提问于2020-09-02得票数 7

回答已采纳

点击加载更多