如何将HDFS设置为flink的状态后端_Flink表的状态后端_如何将useState挂钩的状态设置为true - 腾讯云开发者社区

hadoop、hdfs、apache-flink、flink-streaming

我希望将flink store存储在HDFS中，以便在崩溃后可以从HDFS恢复flink状态。我计划每隔60秒将状态写入HDFS。我如何才能做到这一点？这是我需要遵循的配置吗？https://ci.apache.org/projects/flink/flink-docs-release-1.4/ops/state/state_backen

浏览 129提问于2021-11-01得票数 0

回答已采纳

1回答

状态是否保存在TaskManager的内存中，而与后端的状态无关？

apache-flink

我知道我既可以在flink的配置文件(flink-conf.yaml)中全局设置状态后端，也可以在每个作业的作用域中设置。env = StreamExecutionEnvironment.getExecutionEnvironment() env.setStateBackend(new FsStateBackend("hdfs://namenode:40010/flink&#x

浏览 18提问于2020-09-07得票数 0

回答已采纳

1回答

配置后端状态以使用hdfs时出错

scala、hadoop、apache-flink

我正在尝试将后端状态设置为hdfs。val stateUri = "hdfs/path_to_dir"env.setStateBackend(backend) "org.apache.flink</em

浏览 0提问于2018-12-19得票数 2

回答已采纳

1回答

我可以在本地文件系统中使用flink* rocksDB状态后端吗？*

apache-flink、rocksdb

我正在探索使用Flink rocksDb状态后端，文档似乎意味着我可以使用常规的文件系统，比如：file:///data/flink/checkpoints，但是代码javadoc在这里只提到了hdfs我想知道是否可以使用本地文件系统与flink rocksdb后端，谢谢！Flink代码：

浏览 3提问于2019-10-29得票数 3

回答已采纳

1回答

作为持久存储的Flink

apache-flink、ceph

Flink文档表明Ceph可以用作状态的持久存储。考虑到Ceph是一个事务性数据库，它不会对Flink的性能产生不利影响吗？

浏览 6提问于2017-12-05得票数 3

回答已采纳

1回答

如何在Kubernetes中为Flink应用程序自定义资源提供Vault机密

kubernetes、apache-flink、vault

我想从Hashicorp中为在Kubernetes集群中运行的Apache作业提供秘密。这些学分将用于访问用于检查点和保存点的状态后端。例如，状态后端可以是Minio S3存储。有谁能为提供一个工作示例，请给出以下设置？/config access-key=minio secret-key=minio123apiVersion: flink.k

浏览 2提问于2022-01-05得票数 2

回答已采纳

1回答

由于流对齐，检查点端到端持续时间增加

apache-flink、flink-streaming

我有一个flink作业，它读取用户事件，使用会话窗口，并写回kafka。问题是-为什么?我如何在不将检查点模式设置为AT_LEAST_ONCE的情况下解决这个问题？

浏览 2提问于2017-06-20得票数 4

1回答

链接映射状态大小和键数

apache-flink

我想知道是否有一种方法可以检索存储在状态后端的总状态大小。我目前使用的是flink 1.3，高于emr和rocksdb后端，带有异步检查点和增量检查点。" checkpoints“下的flink仪表板显示状态大小，但我假设由于我使用的是增量检查点，所以我在checkpoint history页面中看到状态大小的波动。我目前使用的唯一方

浏览 2提问于2017-08-18得票数 4

1回答

Flink，setDbStoragePath方法在RocksDBStateBackend中做什么？

apache-flink

("hdfs:///flink-checkpoints", true);env.setStateBackend(stateBackend);--我的理解是，当DbStoragePath被设置时，Flink将在存储到hadoop hdf

浏览 0提问于2021-02-24得票数 0

回答已采纳

2回答

Apache中保留的默认检查点在哪里？

java、apache-flink、flink-streaming、checkpointing

我是Apache的新手，我正在研究Apache的例子。我发现，在失败的情况下，Flink能够从检查点恢复流处理。StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();现在，我的问题是，在默认情况下，Flink在哪里保留检查点？任何帮助都是非常感谢的！

浏览 0提问于2018-05-13得票数 2

回答已采纳

1回答

Apache flink:从RocksDB后端的存储点延迟加载

apache-flink、flink-streaming、rocksdb

我们希望使用带有RocksDB后端(HDFS)的Apache Flink来进行有状态流处理。但是，我们的应用程序状态(键控状态)将是of级的。据我所知，当我们从保存点恢复作业时，所有操作员状态数据都将从HDFS上的保存点位置发送到每个任务管理器。如果状态是to级的，那么如果所有这些状态都需要传输，那么每次部署都将导致非常长<em

浏览 29提问于2020-04-23得票数 0

1回答

Flink:关于flink检查点和保存点的查询

apache-flink、flink-streaming

下面是我对Flink的疑问。对于三个问题，请尽可能回答描述性问题。我对学习StateProcessor API很感兴趣，但我想深入了解它的应用，以及它必不可

浏览 1提问于2020-02-28得票数 1

回答已采纳

1回答

如何配置Flink以将Hdfs用于后端状态和检查点

apache-flink、flink-streaming、flink-cep

我有一个Flink v1.2，3 JobManagers，2 TaskManagers的设置。我想使用hdfs作为后端状态、检查点和动物园管理员storageDir。/ip:端口/外部检查点高可用性.zookeeper.storageDir:hdfs:/ip:端口/恢复 2017-03-22 17:41RemotingTerminator

浏览 1提问于2017-03-22得票数 5

回答已采纳

1回答

Flink RocksDB性能问题

hdfs、apache-flink、flink-streaming、rocksdb

我有一个flink作业(scala)，它基本上是从kafka主题(1.0)读取数据(1分钟的事件时间滚动窗口，使用折叠函数，我知道这个函数不推荐，但比聚合函数更容易实现)，并将结果写入两个不同的kafka问题是--当我使用FS状态后端时，一切都运行顺利，检查点需要1-2秒，平均状态大小为200 mb --也就是说，直到州大小增加(例如，缩小差距)。我想我会尝试用于检查点的rocksdb (通过hdfs)，但是吞吐量明显低于fs

浏览 1提问于2018-11-11得票数 3

2回答

Apache Flink* State Store与Kafka Streams*

apache-kafka、apache-flink、apache-kafka-streams、stream-processing

据我所知，处理Kafka流的状态在内存、磁盘或Kafka主题中都是本地的，因为所有的输入数据都来自一个分区，其中所有的消息都是由一个定义的值键控的。大多数情况下，计算可以在不知道其他处理器的状态的情况下完成。如果是这样的话，您有另一个Streams实例来计算结果。如图所示：Flink到底在哪里存储它的状态？Flink是否也可以在本地存储状态，或者总是将

浏览 0提问于2019-02-10得票数 3

1回答

Apache实现具有潜在非常大状态的流处理器

scala、apache-flink、flink-streaming

我希望从一系列事件中预测出一个潜在的非常大的状态。这就是我如何以一种命令式的方式来实现这一点： // push event to downstream sink} 在最坏的情况下，

浏览 4提问于2017-03-28得票数 0

回答已采纳

1回答

纱线接头作业Flink检查点的路径动态设置

apache-flink、flink-streaming、flink-sql

我使用Yarn来运行Flink作业。对于每个Flink作业，我都要创建一个检查点。我提交一个在我的Yarn集群中运行的Flink作业。当作业再次提交时，Yarn为该Flink作业创建一个新的application_id。如何配置重新提交的Flink作业以使用重新启动的Flink作业的检查点。我已将conf state.savepoints.dir = h

浏览 0提问于2018-05-22得票数 0

回答已采纳

1回答

fs.hdfs.hadoopconf在flink-flink.flink中的用途

apache-flink

我能够在远程hdfs集群中的文件上运行示例wordcount.jar，而无需在flink中声明fs.hdfs.hadoopconf变量。flink-cluster.vm ~]$ /opt/flink/bin/flink run /opt/flink/examples/batch

浏览 2提问于2016-07-13得票数 3

回答已采纳

2回答

使用状态处理器api的状态后端配置

apache-flink

我使用状态处理器-api，因为它被发布来引导我的flink状态。我使用RocksDBStateBackend，它可以工作。我的问题是：由:java.io.IOException引起:状态的大小大于最大允许的内存支持状态。Size=85356498，maxSize=5242880 .考虑使用不同的状态<e

浏览 3提问于2021-07-09得票数 5

回答已采纳

1回答

Flink Shaded Hadoop S3文件系统仍需要hdfs默认路径和hdfs站点配置路径

apache-flink、flink-streaming

我正在尝试使用Flink 1.6.0将S3配置为我的状态后端。文档没有指定这种特定方法对hadoop配置文件的任何需求。然而，我正面临着这个错误，抱怨缺少hadoop配置路径。DEBUG org.apache.flink.fs.s3hadoop.shaded.org.apache.flink.runtime.fs.hdfs.AbstractFileSystemFactory(HadoopConfigLoader.java:80)

浏览 12提问于2018-08-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云