文章/答案/技术大牛

发布

Apache Flink:未应用环境并行度设置

Apache Flink是一个分布式流处理和批处理框架，它提供高性能、可靠性和准确性的数据处理能力。它可以在大规模数据集上进行实时流处理和离线批处理，并支持事件时间和处理时间两种处理模式。

在Apache Flink中，可以通过设置并行度来控制作业的并行执行。并行度决定了任务在集群中的并行运行程度，它可以应用于不同级别的任务（如作业、算子或任务槽）。并行度设置的合理性对于作业的性能和资源利用率至关重要。

具体来说，在未应用环境中设置并行度可以通过以下步骤完成：

配置并行度：可以在Flink作业的代码中或者作业提交时设置并行度。在代码中，可以使用setParallelism()方法来设置算子的并行度，例如：

DataStream<Integer> stream = ...;
stream.map(new MyMapper()).setParallelism(4);

在作业提交时，可以使用命令行参数或者编程接口来设置整个作业的并行度。

考虑资源限制：在设置并行度时，需要考虑集群的资源限制，包括可用的计算资源、内存、网络带宽等。合理的并行度设置应该根据集群的资源情况来调整，以保证作业的稳定运行。
平衡数据分布：并行度设置还应考虑数据分布的均衡性。如果数据倾斜严重，可能导致某些任务负载过重，而其他任务闲置。在这种情况下，可以通过重新分区数据、增加或减少算子并行度等方式来调整数据分布，以实现更好的并行处理效果。

总结起来，Apache Flink允许在未应用环境中设置并行度来控制作业的并行执行程度。合理的并行度设置可以提高作业的性能和资源利用率，但需要考虑集群资源限制和数据分布的均衡性。

页面内容是否对你有帮助？

有帮助

没帮助

Apache Flink:未应用环境并行度设置

、、、

我正在尝试按照documentation在Java 1.8.3中设置一个总体并行度设置 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment我还可以在flink UI中看到应用了环境设置(长时间运行的会话集群、通过rest API或Flink UI提交的作业)： ? 但是，当我查看各个阶段在Flink</em

浏览 44提问于2020-07-08得票数 0

回答已采纳

1回答

使用Apache光束时，无法使用Flink的CLI或Web-UI设置并行度

、、

我使用的是运行在Docker上的Flink 1.2.1，任务管理器作为Docker群的一部分分布在不同的am上。使用Flink Web UI上传Apache光束应用程序并尝试在作业提交点设置并行度不起作用。两者都不会使用Flink CLI提交作业。看起来在客户机级并行度并没有被接受，它最终默认为1。当我以编程方式在Apache Beam代码中设置并行度<

浏览 2提问于2017-10-23得票数 0

1回答

为什么Apache* Flink应用程序的并行执行比顺序执行慢？*

我有一个带有一个TaskManager和两个处理槽的Apache Flink设置。当我执行一个并行度设置为1的应用程序时，该作业大约需要33秒才能执行。当我将并行度增加到2时，作业需要45秒才能完成。我在我的Windows机器上使用Flink，配置为10个计算核心(4C+ 6G)。我想获得更好的结果与2个插槽。我能做什么?

浏览 22提问于2018-02-26得票数 1

回答已采纳

1回答

Apache Flink:奇怪的FlatMap行为

、

我正在向Flink中摄取数据流。对于这个数据的每个“实例”，我都有一个时间戳。我可以检测我从中获取数据的机器是“正在生成”还是“未生成”，这是通过位于它自己的静态类中的自定义平面映射函数来完成的。31.10.2018 09:18:39.432069', 'data': {1: 100.0, 2: 100.0, 101: 94.0, 102: 120.0, 103: 65.0}} 我期望的行为是，我的flink

浏览 0提问于2018-10-30得票数 1

2回答

Apache Flink: setParallelism()和setMaxParallelism()有什么区别？

、

我尝试使用ExecutionConfig.setMaxParallelism()方法为Flink作业设置最大并行度，但似乎不起作用。我还修改了标准的WordCount示例以运行一些测试，setMaxParallelism()方法似乎对本地环境或独立集群都没有任何影响。 setMaxParallelism()是如何工作的？

浏览 17提问于2019-02-07得票数 1

2回答

多并行Flink应用中具有单一并行性的均匀分布运算符

、

我们有一个flink应用程序，它在开始时有一个地图操作符。使用过滤器将此操作的输出流路由到多个窗口函数。窗口函数的并行度均为1。我们需要两个map函数的并行度来获得环境的并行度。正如预期的那样，窗口函数的并行度确实是1。我们为每个任务管理器设置了1个插槽。问题是，当我们将环境的并行度设置为大于1时，所有窗口函数

浏览 48提问于2020-08-08得票数 0

回答已采纳

1回答

关于状态和什么对Flink更好

、、

让我们假设我有一个max.parallelism=4的工作和一个使用MapState的RichFlatMapFunction。创建MapStateDescriptor的最佳方法是什么？到RichFlatMapFunction中，这意味着对于这个类的每个实例，我都将有一个描述符，或者创建一个描述符的实例，例如:在单个类中使用public static MapStateDescriptor descriptor并从RichFlatMapFunction调用它？因为这样做我只会有一个MapStateDescriptor而不是4个，或者我误解了什么？

浏览 0提问于2020-09-10得票数 2

2回答

光束+闪烁:使用SDFBoundedSourceReader时没有并行性

、、

背景:我正在使用TFX管道，并使用Flink作为光束的运行器(使用flink-on-K8s-operator的flink会话集群)。Flink集群有2个任务管理器，每个任务管理器有16个核心，并行度设置为32。TFX组件调用beam.io.ReadFromTFRecord来加载数据，传入一个glob文件模式。当我尝试运行该组件时，对所有160个文件的处理在Flink中的单个子任务中结束，即并行度实际上为1。如下图所示

浏览 18提问于2021-09-20得票数 0

回答已采纳

1回答

为什么用户必须显式设置并行度

我启动了一个flink应用程序，每个TaskManager都有n TaskManagers和s插槽，所以，我的应用程序将有n*s个插槽。这意味着，flink最多只能同时运行n*s子任务。但是为什么flink不尝试使用大多数资源来运行尽可能多的子任务，并麻烦最终用户显式地设置并行性呢？对于不知道并行度设置(默认是1)的flink初学者来说，即使给出更多的资源，它也总是只运行一个子任务！我想知道这里

浏览 18提问于2019-09-24得票数 0

回答已采纳

1回答

BucketingSink与S3A在AWS电子病历中引起的Flink* - AWSS3IOException*

、、、

我有一个在AWS EMR中运行的高度并行(400)的Flink应用程序。它使用BucketingSink源码Kafka并汇入S3 (使用RocksDb后端设置检查点)。Flink作业是一个持续运行的流媒体应用程序。在任何给定的时间，所有工作进程加在一起都有可能生成/写入400个文件(由于400个并行度)。(S3AFileSystem.java:662) at org.apache.flink.streami

浏览 4提问于2018-12-05得票数 0

2回答

Flink Sink并行= 1？

、

我正在尝试理解Flink中的并行性是如何工作的。这个文档似乎表明接收器的并行度等于1。在我的例子中，我在接收器中写入HBase -这是否意味着只有一个任务(线程？)哪个将写入HBase？它是否没有获得为应用程序设置的全局并行度？

浏览 2提问于2019-10-04得票数 1

1回答

Apache flink如何在节点之间分发数据？

我已经设置了一个2节点的独立Apache Flink集群。对于少量数据(70MB)，2的并行度需要更多的时间(2分30秒)来处理，而1的并行度只需要18秒。

浏览 2提问于2018-03-06得票数 1

1回答

如果一个作业失败，如何使整个flink应用程序失败？

、

在flink中有两个作业在运行，如果其中一个失败了，我需要让整个flink应用程序失败吗？我该怎么做呢？假设并行度为1的作业由于某种异常而失败，如何使并行度为4的作业失败？ ?

浏览 5提问于2020-07-25得票数 0

回答已采纳

3回答

可以在我的机器上使用tensorflow-transform并行预处理吗？

、、

作为tf-transform和apache Beam的新手，我很难找到问题的原因和解决方案……而且我想避免使用谷歌DataFlow。

浏览 5提问于2019-01-04得票数 1

1回答

Flink kafka消费者从特定分区获取消息

、、

我们希望在读取来自kafka的消息时实现并行性。因此，我们希望在flinkkafkaconsumer中指定分区编号。它将读取kafka中所有分区的消息，而不是特定的分区号。kafkaConsumer = new FlinkKafkaConsumer<String>("EventLog", new SimpleStringSchema(), properties); 请建议任何更好的选项来获得并行性

浏览 139提问于2020-07-09得票数 1

1回答

很少有kafka分区没有分配给任何flink使用者

、、

我有一个kafka主题，有15个分区0-14，我正在运行5个并行的flink。因此，理想情况下，每个并行flink使用者应该分别使用3个分区。但是，即使在多次重启之后，很少有kafka分区不是由任何flink工作者订阅的。org.apache.kafka.clients.consumer.KafkaConsumer assign Subscribed to partition(s): topic_name-13, topic_name-8, topic_name-9 org.a

浏览 10提问于2020-09-08得票数 1

回答已采纳

3回答

Flink自定义分区函数

、、、

我在DataSet应用程序接口的Flink上使用Scala。我想跨节点对数据进行重新分区。Spark有一个功能，可以让用户使用给定的numberOfPartitions参数(link)重新划分数据，但我相信Flink不支持这种功能。因此，我想通过实现一个自定义分区函数来实现这一点。

浏览 33提问于2019-01-15得票数 5

1回答

如果我的Flink应用程序需要一个高并行接收器，那么最佳实践是什么？

假设我的Flink应用程序有3个组件: Source、Map和Sink。由于某些原因(例如调用API有很高的延迟)，接收器需要非常高的并行性(例如20)。我们知道，最小可用插槽至少应该与应用程序的最大并行性一样大，在本例中为20。部署此应用程序的方法有两种：如果我已经有一个Flink集群，部署这个应用程序将占用20个插槽。我可以为这个应用程序设置一个每个作业集群，并将每个任务管理器的插槽数设置

浏览 2提问于2020-12-15得票数 2

1回答

当并行度大于1时，Flink不转发Kafka度量

、

我有一个Flink的工作，从卡夫卡(0.9版)，并写信给雷迪斯。我希望监控由Flink应该能够转发的由Kafka发出的records-consumed-rate和records-lag-max度量。当我以1的并行度开始作业时，我看到这个度量很好地发出。但是，如果我使并行度大于1，则不再转发此度量。作业在并行度>1时运行，因为我可以看到条目正在写入Redis。我在AWS EMR上运行Flink (v1.6.2)：主节点：(1

浏览 0提问于2019-04-18得票数 0

1回答

在flink任务管理器中均匀分配任务槽

、、

我有一个flink作业(2个任务管理器)，作业并行度为64，任务槽为64。我将其中一个运算符的并行度设置为16。该运算符(16个并行度)插槽未在两个任务管理器中均匀分布。我使用的是flink版本1.11.2。我试着添加了一个集群。平均地-分散-展开-插槽:是真的，但它不起作用。任何解决方案都非常受欢迎。

浏览 95提问于2021-03-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Apache Flink:未应用环境并行度设置

相关·内容

Apache Flink:未应用环境并行度设置

使用Apache光束时，无法使用Flink的CLI或Web-UI设置并行度

为什么Apache* Flink应用程序的并行执行比顺序执行慢？*

Apache Flink:奇怪的FlatMap行为

Apache Flink: setParallelism()和setMaxParallelism()有什么区别？

多并行Flink应用中具有单一并行性的均匀分布运算符

关于状态和什么对Flink更好

光束+闪烁:使用SDFBoundedSourceReader时没有并行性

为什么用户必须显式设置并行度

BucketingSink与S3A在AWS电子病历中引起的Flink* - AWSS3IOException*

Flink Sink并行= 1？

Apache flink如何在节点之间分发数据？

如果一个作业失败，如何使整个flink应用程序失败？

可以在我的机器上使用tensorflow-transform并行预处理吗？

Flink kafka消费者从特定分区获取消息

很少有kafka分区没有分配给任何flink使用者

Flink自定义分区函数

如果我的Flink应用程序需要一个高并行接收器，那么最佳实践是什么？

当并行度大于1时，Flink不转发Kafka度量

在flink任务管理器中均匀分配任务槽

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐