开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Flink和RocksDB -列表状态比主内存大吗？

Flink和RocksDB是云计算领域中常用的技术工具。下面是对于这个问答内容的完善且全面的答案：

Flink是一个开源的流式处理框架，它提供了高效、可扩展的数据流处理和批处理功能。RocksDB是Flink中用于持久化存储的一种高性能的键值存储引擎。

在Flink中，列表状态是一种用于存储和管理数据流中的列表的状态类型。列表状态可以用于在流式处理过程中维护和更新动态的列表数据。与主内存相比，列表状态的大小可以是更大的，因为它可以持久化到磁盘上。这意味着列表状态可以处理比主内存更大的数据量。

列表状态的优势在于它可以处理大规模的数据，并且具有持久化的特性，即使在发生故障或重启时也能保持数据的一致性。它适用于需要在流式处理中维护和更新大量数据的场景，例如实时数据分析、事件处理和机器学习等应用。

对于Flink中的列表状态，腾讯云提供了一系列相关产品和服务。其中，腾讯云的分布式数据库TDSQL是一种高性能、高可用的云数据库，可以用于存储和管理大规模的数据。您可以通过以下链接了解更多关于TDSQL的信息：TDSQL产品介绍

此外，腾讯云还提供了云原生数据库TencentDB for TDSQL，它是一种高性能、弹性伸缩的云数据库，适用于大规模数据存储和处理。您可以通过以下链接了解更多关于TencentDB for TDSQL的信息：TencentDB for TDSQL产品介绍

总结：在Flink中，列表状态可以比主内存更大，因为它可以持久化到磁盘上。腾讯云提供了一系列相关产品和服务，如TDSQL和TencentDB for TDSQL，用于存储和管理大规模的数据。

相关搜索:OpenVZ OpenAM OGRE3D OCUnit out服务器 org服务器 onl服务器 odm服务器 oc语言倒序 owasp

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

爆肝 3 月，3w 字、15 章节详解 Flink 状态管理！（建议收藏）

不多说了，本文从盘古开天辟地（状态是啥？）开始说 Flink State。如下为本文目录，诚意满满。

02

Flink RocksDB State Backend：when and how

流处理应用程序通常是有状态的，“记住”已处理事件的信息，并使用它来影响进一步的事件处理。在Flink中，记忆的信息（即状态）被本地存储在配置的状态后端中。为了防止发生故障时丢失数据，状态后端会定期将其内容快照保存到预先配置的持久性存储中。该RocksDB[1]状态后端（即RocksDBStateBackend）是Flink中的三个内置状态后端之一。这篇博客文章将指导您了解使用RocksDB管理应用程序状态的好处，解释何时以及如何使用它，以及清除一些常见的误解。话虽如此，这不是一篇说明RocksDB如何深入工作或如何进行高级故障排除和性能调整的博客文章；如果您需要任何有关这些主题的帮助，可以联系Flink用户邮件列表[2]。

03

快收藏！优化 Apache Flink 应用程序的 7 个技巧！

在 Shopify 中，我们将Apache Flink作为标准的有状态流媒体引擎，为我们的BFCM Live Map等各种用例提供支持。我们的 Flink 应用程序部署在利用Google Kubernetes Engine的 Kubernetes 环境中。我们的集群采用配置使用高可用性模式，配置任务管理为故障点。我们还为我们使用状态保存器作为我们使用的检查点和点写入谷歌云存储（GCS）。

03

Flink大状态与Checkpint调优

第一部分讨论如何大规模执行checkpoint。最后一部分解释了一些关于规划要使用多少资源的最佳实践。

03

Flink 对线面试官（一）：4 大主题、1w 字、15 个高频问题

其中主要划分为一下 4 大主题，首先是前两个状态原理、时间窗口是用于考核候选人对于 Flink 基本原理的理解，编程技巧、实战经验主要是考核候选人使用 Flink 的经验。

03

【Flink】第六篇：记一次Flink状态（State Size）增大不收敛，最终引起OOM问题排查

公司线上一个Flink作业的State Size随时间逐渐增大，运行一段时间后出现报OutOfMemory异常。

04

eBay：Flink的状态原理讲一下……

状态在 Flink 中叫作 State,用来保存中间计算结果或者缓存数据。根据是否需要保存中间结果，分为无状态计算和有状态计算。对于流计算而言，时间持续不断地产生，如果每次计算都是相互独立的，不依赖于上下游的事件，则是无状态计算。如果计算需要依赖于之前或者后续的事件，则是有状态计算。State 是实现有状态计算的下的 Exactly-Once 的基础。

02

【Flink】【更新中】状态后端和checkpoint

有状态的计算是流处理框架要实现的重要功能，因为稍复杂的流处理场景都需要记录状态，然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能：

03

Flink状态后端和CheckPoint 调优

RocksDB 是嵌入式的 Key-Value 数据库，在 Flink 中被用作 RocksDBStateBackend 的底层存储。如下图所示，RocksDB 持久化的 SST文件在本地文件系统上通过多个层级进行组织，不同层级之间会通过异步Compaction 合并重复、过期和已删除的数据。在 RocksDB 的写入过程中，数据经过序列化后写入到WriteBuffer，WriteBuffer 写满后转换为 Immutable Memtable 结构，再通过 RocksDB 的flush 线程从内存 flush 到磁盘上；读取过程中，会先尝试从 WriteBuffer 和 Immutable Memtable 中读取数据，如果没有找到，则会查询 Block Cache，如果内存中都没有的话，则会按层级查找底层的 SST 文件，并将返回的结果所在的 Data Block 加载到 BlockCache，返回给上层应用。

03

如何在Apache Flink中管理RocksDB内存大小

原文：https://www.ververica.com/blog/manage-rocksdb-memory-size-apache-flink 翻译：zhangjun，英语水平不太好，如有问题，请大家不吝赐教

02

Flink on RocksDB 参数调优指南

对于需要保存超大状态（远超于内存容量）的流计算场景来说，目前 RocksDB [1] 是 Flink 平台上官方实现的唯一选择。业界也有使用 Redis 等其他服务作为状态后端的方案，但终究不够成熟，且已被社区否决 [2].

Flink —— 状态

在本节中，您将了解Flink为编写有状态程序提供的api。请参阅有状态流处理以了解有状态流处理背后的概念。

01

【Flink】【更新中】状态后端和checkpoint

有状态的计算是流处理框架要实现的重要功能，因为稍复杂的流处理场景都需要记录状态，然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能：

03

《Flink 对线面试官》3w 字、6 大主题、30 图、36 个高频问题！（建议收藏）

兄弟们，在 18w 字《Flink SQL 成神之路》之后，我的另一篇《Flink 对线面试官》申请出战！

02

Flink 状态管理详解（State TTL、Operator state、Keyed state）

Flink官网的自我介绍：Apache Flink® — Stateful Computations over Data Streams，可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢？简单说计算任务的结果不仅仅依赖于输入，还依赖于它的当前状态。

03

Flink学习笔记(5) -- Flink 状态(State)管理与恢复

我们前面写的word count的例子，没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。

02

13道Flink企业级高频面试题

相信小伙伴们对于Flink一定不会感到陌生，作为连续三年蝉联第一，荣膺全球最活跃的 Apache 开源项目，Flink在中国的热度也一直是居高不下。近几年，在社区的推动下，Flink 技术栈在越来越多的公司开始得到应用，因此在大数据的求职招聘中，对于Flink的着重考察也变得越来越重要。本期文章，菌哥就带大家来总结一下，在面试过程中，Flink常被问到的知识点有哪些？如果本文对你有帮助，记得在看完之后，一键三连(✧◡✧)

01

Flink 1.13 StateBackend 与 CheckpointStorage 拆分

Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑，但是这个问题如此常见，我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中，我们经常会听到如下误解：

03

三种State Backends | 你该用哪个？

场景描述：当Flink程序的checkpoint被激活时，状态会被持久化到checkpoint，以防止数据丢失和无缝恢复。状态在内部如何组织和它们如何以及在哪持久化，依赖于所选的状态后端。

03

三种State Backends | 你该用哪个？

Checkpoint 的存储的位置取决于配置的 State backend（JobManager 内存，文件系统，数据库...）。

03

干货 | 13道精选Flink面试题

相信小伙伴们对于Flink一定不会感到陌生，作为连续三年蝉联第一，荣膺全球最活跃的 Apache 开源项目，Flink在中国的热度也一直是居高不下。近几年，在社区的推动下，Flink 技术栈在越来越多的公司开始得到应用，因此在大数据的求职招聘中，对于Flink的着重考察也变得越来越重要。本期文章，菌哥就带大家来总结一下，在面试过程中，Flink常被问到的知识点有哪些？如果本文对你有帮助，记得在看完之后，一键三连(✧◡✧)

02

RocksDB：高性能键值存储引擎初探

在TiDB中（TiDB是一个分布式SQL数据库，其存储引擎TiKV是一个分布式的key-value存储引擎），TiKV使用了RocksDB作为其底层存储引擎，利用RocksDB提供的键值存储与读写功能，以及LSM-tree架构来实现数据的持久化和高效读写。

01

Flink核心概念：系统架构、时间处理、状态与检查点

上图的Flink示例程序对一个数据流做简单处理，整个过程包括了输入（Source）、转换（Transformation）和输出（Sink）。程序由多个DataStream API组成，这些API，又被称为算子（Operator），共同组成了逻辑视角。在实际执行过程中，逻辑视角会被计算引擎翻译成可并行的物理视角。

01

JRC Flink流作业调优指南

Tech 导读本文综合Apache Flink原理与京东实时计算平台（JRC）的背景，详细讲述了大规模Flink流作业的调优方法。通过阅读本文，读者可了解Flink流作业的通用调优措施，并应用于生产环境。写在前面 Apache Flink作为Google Dataflow Model的工业级实现，经过多年的发展，如今已经成为流式计算开源领域的事实标准。它具有高吞吐、低时延、原生流批一体、高一致性、高可用性、高伸缩性的特征，同时提供丰富的层级化API、时间窗口、状态化计算等语义，方便用户快速入门实时开发，

04

Flink 管理大型状态之增量 Checkpoint

Apache Flink 是一个有状态的流处理框架。什么是流处理应用程序的状态呢？你可以理解状态为应用程序算子中的内存。状态在流计算很多复杂场景中非常重要，比如：

03

Apache Flink 管理大型状态之增量 Checkpoint 详解

作者 | Stefan Ricther & Chris Ward 翻译 | 邱从贤（山智）

02

配置了 RocksDB，Flink 中所有状态数据都会存在 RocksDB 吗？

在说背景前，先说一下标题的结论：你配置的 rocksdb 只会影响 flink 任务中 keyed state 存储的方式和地方，flink 任务中的 operator state 不会受到影响。

03

Flink 1.10 新特性研究

Flink 1.10 release 文档描述了一些比较重要的点，比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别，如果你准备将 Flink 升级到 1.10 版本，建议仔细看完下面的内容。

04

Flink1.4 状态终端

状态可以存储在Java的堆内或堆外。根据你的状态终端，Flink 也可以管理应用程序的状态，这意味着 Flink 可以处理内存管理（可能会溢出到磁盘，如果有必要），以允许应用程序存储非常大的状态。默认情况下，配置文件 flink-conf.yaml 为所有Flink作业决定其状态终端。

03

有状态流处理:Flink状态后端

这篇文章我们将深入探讨有状态流处理，更确切地说是 Flink 中可用的不同状态后端。在以下部分，我们将介绍 Flink 的3个状态后端，它们的局限性以及根据具体案例需求选择最合适的状态后端。

02

Flink DataStream—— 状态(State)&检查点(Checkpoint)&保存点(Savepoint)原理

最近一次项目当中需要将大量数据保存再Flink程序当中用作缓存数据一共后续数据使用，隧对最近使用到的状态、检查点、保存点等原理和使用进行一个总结

04

Flink State 最佳实践

本文主要分享与交流 Flink 状态使用过程中的一些经验与心得，当然标题取了“最佳实践”之名，希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念，并认识和区别不同的 state backend；之后将分别对 state 使用访问以及 checkpoint 容错相关内容进行详细讲解，分享一些经验和心得。

02

Flink State 误用之痛，竟然 90% 以上的 Flink 开发都不懂

本文主要讨论一个问题：ValueState 中存 Map 与 MapState 有什么区别？

02

【Flink】第九篇：Flink SQL 性能优化实战

最近我们组在大规模上线Flink SQL作业。首先，在进行跑批量初始化完历史数据后，剩下的就是消费Kafka历史数据进行追数了。但是发现某些作业的追数过程十分缓慢，要运行一晚上甚至三四天才能追上最新数据。由于是实时数仓指标计算上线初期，经常验证作业如果有问题就得重蹈覆辙重新追数，效率很低，于是我开始分析Flink SQL的优化。

03

Flink TaskManager 内存管理机制介绍与调优总结

Flink 的新版内存管理机制，要追溯到 2020 年初发布的 Flink 1.10 版本。当时 Flink 社区为了实现三大目标：

08

Flink 对线面试官（四）：1w 字，6 个面试高频实战问题（建议收藏）

其中前两项一般大多数引擎都支持，我们需要关注的就是第 3 项，目前有两种常用方法：

04

Flink TaskManager 内存管理机制介绍与调优总结

作者：董伟柯，腾讯 CSIG 高级工程师概要 Flink 的新版内存管理机制，要追溯到 2020 年初发布的 Flink 1.10 版本。当时 Flink 社区为了实现三大目标：流和批模式下内存管理的统一，即同一套内存配置既可用于流作业也可用于批作业管控好 RocksDB 等外部组件的内存，避免在容器环境下用量不受控导致被 KILL 消除不同部署模式下配置参数的歧义，消除 cut-off 等参数语义模糊的问题提出了两个设计提案 FLIP-49: Unified Memory Configuratio

02

从开发到生产上线，如何确定集群大小?

在 Flink 社区中，最常被问到的问题之一是：在从开发到生产上线的过程中如何确定集群的大小。这个问题的标准答案显然是“视情况而定”，但这并非一个有用的答案。本文概述了一系列的相关问题，通过回答这些问题，或许你能得出一些数字作为指导和参考。

02

关于 Flink 状态与容错机制

Flink 作为新一代基于事件流的、真正意义上的流批一体的大数据处理引擎，正在逐渐得到广大开发者们的青睐。就从我自身的视角看，最近也是在数据团队把一些原本由 Flume、SparkStreaming、Storm 编写的流式作业往 Flink 迁移，它们之间的优劣对比本篇暂不讨论。

02

2021年大数据Flink（二十七）：Flink 容错机制 Checkpoint

一般指一个具体的Operator的状态(operator的状态表示一些算子在运行的过程中会产生的一些历史结果,如前面的maxBy底层会维护当前的最大值,也就是会维护一个keyedOperator,这个State里面存放就是maxBy这个Operator中的最大值)

03

【译】如何调整ApacheFlink®集群的大小How To Size Your Apache Flink® Cluster: A Back-of-the-Envelope Calculation

来自Flink Forward Berlin 2017的最受欢迎的会议是Robert Metzger的“坚持下去：如何可靠，高效地操作Apache Flink”。 Robert所涉及的主题之一是如何粗略地确定Apache Flink集群的大小。 Flink Forward的与会者提到他的群集大小调整指南对他们有帮助，因此我们将他的谈话部分转换为博客文章。请享用！

01

Flink 状态TTL如何限制状态的生命周期

很多有状态流应用程序的常见需求是能够控制应用程序状态的访问时长以及何时删除它。这篇文章介绍了在 1.6.0 版本添加到 Flink 的状态生命周期时间（TTL）功能。

01

Flink重点难点：Flink任务综合调优(Checkpoint/反压/内存)

我们在Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交一文中对Flink的Checkpoint做过详细的介绍。

03

Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager

为了解决Flink作业使用RocksDB状态后端时的内存超用问题，Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true)，再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction，即可满足多数情况的需要。

01

Flink

1）Flink 是标准的实时处理引擎，基于事件驱动。而 Spark Streaming 是微批（Micro-Batch）的模型;

03

Flink 1.10+之改进的TaskManager内存模型与配置

Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置，这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法，该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点：

02

全网最全系列 | Flink原理+知识点总结（4万字、41知识点，66张图）

Flink四大基石分别是：Time （时间）、Window（窗口）、State （状态）、Checkpoint（检查点）。

03

云原生架构下B站Flink存算分离的改造实践

在当前整个行业及公司内部降本增效的大背景下，B站内部也在积极推进实时与在线业务资源的整合，往云原生架构迁移，统一资源池与调度，提升资源利用效率。不过面临的现实问题就是，不同业务场景下，资源的规格诉求不尽相同。在线的业务资源池，由于在线业务的属性，一般只具备很强的计算能力而基本不带存储以及io能力。Flink虽然是一个计算引擎，但是由于其stateful的特性，在很多计算场景下，对存储和io其实有比较强的诉求，因此实时的资源池，同时具备很强的存算能力。两种资源池的整合，必然面临兼容性问题，考虑到大数据整体的存算分离发展趋势，我们尝试对Flink进行存算分离的改造，核心工作就是statebackend的远程化。

02

Flink 1.10之改进的TaskManager内存模型与配置

Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置，这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法，该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点：

04

flink状态管理-keyed

Flink主要有两种基础类型的状态：keyed state 和operator state。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭