开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Flink State是否应用于大型和中期存储？

Flink State 是 Apache Flink 提供的一种分布式状态管理机制，用于在流式计算中保存和维护状态信息。它可以用于大型和中期存储，但在实际应用中需要根据具体的业务需求和数据规模来决定是否选择使用。

对于大型存储，Flink State 可以通过将状态数据存储在分布式文件系统（如HDFS）或对象存储（如腾讯云 COS）中，来实现对大规模数据的处理和存储。这样可以保证在处理大数据量时，状态数据的高可靠性和高性能访问。

对于中期存储，Flink State 可以通过将状态数据存储在支持快速读写的键值存储系统（如腾讯云 Redis）中，以满足对中等大小的状态数据的实时访问需求。这在一些需要快速查询和更新状态的场景中非常有用，例如实时报表生成、实时数据分析等。

总结起来，Flink State 可以应用于大型和中期存储，通过选择适当的存储介质和腾讯云相关产品，可以实现对不同规模和访问需求的状态数据的高效管理和访问。在腾讯云中，推荐使用的相关产品包括：

对于大型存储：
- 腾讯云对象存储（COS）：提供高可靠性和可扩展性的对象存储服务，适用于存储大规模数据和文件。
- 腾讯云分布式文件系统（CFS）：提供高性能的分布式文件存储服务，适用于存储和处理大规模数据。

对于中期存储：
- 腾讯云云数据库 Redis 版（TencentDB for Redis）：提供高性能、可扩展的键值存储服务，适用于快速查询和更新状态数据。

更多腾讯云相关产品的详细介绍和使用指南，请参考以下链接：

腾讯云对象存储（COS）产品介绍：https://cloud.tencent.com/product/cos
腾讯云分布式文件系统（CFS）产品介绍：https://cloud.tencent.com/product/cfs
腾讯云云数据库 Redis 版（TencentDB for Redis）产品介绍：https://cloud.tencent.com/product/redis

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

eBay：Flink的状态原理讲一下……

状态在 Flink 中叫作 State,用来保存中间计算结果或者缓存数据。根据是否需要保存中间结果，分为无状态计算和有状态计算。对于流计算而言，时间持续不断地产生，如果每次计算都是相互独立的，不依赖于上下游的事件，则是无状态计算。如果计算需要依赖于之前或者后续的事件，则是有状态计算。State 是实现有状态计算的下的 Exactly-Once 的基础。

02

三种State Backends | 你该用哪个？

场景描述：当Flink程序的checkpoint被激活时，状态会被持久化到checkpoint，以防止数据丢失和无缝恢复。状态在内部如何组织和它们如何以及在哪持久化，依赖于所选的状态后端。

03

三种State Backends | 你该用哪个？

Checkpoint 的存储的位置取决于配置的 State backend（JobManager 内存，文件系统，数据库...）。

03

Flink State 最佳实践

本文主要分享与交流 Flink 状态使用过程中的一些经验与心得，当然标题取了“最佳实践”之名，希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念，并认识和区别不同的 state backend；之后将分别对 state 使用访问以及 checkpoint 容错相关内容进行详细讲解，分享一些经验和心得。

02

BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化

BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive (全球直播服务)，Likee (短视频创作分享平台)，IMO (免费通信工具) 三部分，在全球范围内拥有 4 亿用户。伴随着业务的发展，对数据平台处理能力的要求也是越来越高，平台所面临的问题也是日益凸显，接下来将介绍 BIGO 大数据平台及其所面临的问题。BIGO 大数据平台的数据流转图如下所示：

02

Flink 对线面试官（四）：1w 字，6 个面试高频实战问题（建议收藏）

其中前两项一般大多数引擎都支持，我们需要关注的就是第 3 项，目前有两种常用方法：

04

如何在Apache Flink中管理RocksDB内存大小

原文：https://www.ververica.com/blog/manage-rocksdb-memory-size-apache-flink 翻译：zhangjun，英语水平不太好，如有问题，请大家不吝赐教

02

数据架构的未来——浅谈流处理架构

业务数据系统存储事务性数据，比如SQL， NOSQL数据库，这种数据拥有准确的数据，比如用户业务，支付业务等体系都可以这样实现，这类需要经常更新，是整体业务系统支撑的核心。

03

Flink学习笔记

流式计算是大数据计算的痛点，第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱，使用的场景有限且无法支持高吞吐计算；Spark Streaming 采用“微批处理”模拟流计算，在窗口设置很小的场景中有性能瓶颈，Spark 本身也在尝试连续执行模式（Continuous Processing），但进展缓慢。

01

大数据计算引擎，你 pick 哪个？

我是 2018 年 6 月加入公司，一直负责监控平台的告警系统。之后，我们的整个监控平台架构中途换过两次，其中一次架构发生了巨大的变化。我们监控告警平台最早的架构如下图所示：

01

A Practical Guide to Broadcast State in Apache Flink

从版本1.5.0开始，Apache Flink具有一种称为广播状态的新型状态。在这篇文章中，我们解释了广播状态是什么，并展示了如何将其应用于评估事件流上的动态模式的应用程序的示例。我们将引导您完成开发步骤和代码，以实现此应用程序。

03

超越大数据的边界：Apache Flink实战解析【上进小菜猪大数据系列】

Apache Flink是一种快速、可靠、可扩展的开源流处理框架，被广泛应用于大数据领域。本文将介绍Apache Flink的实战运用，包括其核心概念、架构设计以及基于Flink进行大数据流处理的具体示例。通过代码实现的案例，读者将深入了解如何使用Apache Flink解决真实世界中的大数据处理问题。

03

Flink优化器与源码解析系列--Flink相关基本概念

Apache Flink是用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据流引擎，可为数据流上的分布式计算提供数据分发，通信和容错能力。Flink在流引擎之上构建批处理，覆盖了本机迭代支持，托管内存和程序优化。本文档适用于Apache Flink 1.10版。

02

数据架构的未来——浅谈流处理架构

数据架构设计领域正在发生一场变革，其影响的不仅是实时处理业务，这场变革可能将基于流的处理视为整个架构设计的核心，而不是将流处理只是作为某一个实时计算的项目使用。本文将对比传统数据架构与流处理架构的区别，并将介绍如何将流处理架构应用于微服务及整体系统中。

04

为什么要学 Flink，Flink 香在哪？

知道大数据的同学也应该知道 Flink 吧，最近在中国的热度比较高，在社区的推动下，Flink 技术栈在越来越多的公司开始得到应用。

04

云原生架构下B站Flink存算分离的改造实践

在当前整个行业及公司内部降本增效的大背景下，B站内部也在积极推进实时与在线业务资源的整合，往云原生架构迁移，统一资源池与调度，提升资源利用效率。不过面临的现实问题就是，不同业务场景下，资源的规格诉求不尽相同。在线的业务资源池，由于在线业务的属性，一般只具备很强的计算能力而基本不带存储以及io能力。Flink虽然是一个计算引擎，但是由于其stateful的特性，在很多计算场景下，对存储和io其实有比较强的诉求，因此实时的资源池，同时具备很强的存算能力。两种资源池的整合，必然面临兼容性问题，考虑到大数据整体的存算分离发展趋势，我们尝试对Flink进行存算分离的改造，核心工作就是statebackend的远程化。

02

影响Flink有状态函数和算子性能的3个重要因素

本文重点介绍开发人员在有状态流处理应用中使用 Flink 的 Keyed State 的函数或算子评估性能时应牢记的3个重要因素。

03

我说Java基础重要，你不信？来试试这几个问题

代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行，相比解释执行的方式，运行效率要高很多。尤其是对于计算密集型查询、或频繁重复使用的计算过程，运用代码生成技术能达到数十倍的性能提升。

03

Flink 对线面试官（一）：4 大主题、1w 字、15 个高频问题

其中主要划分为一下 4 大主题，首先是前两个状态原理、时间窗口是用于考核候选人对于 Flink 基本原理的理解，编程技巧、实战经验主要是考核候选人使用 Flink 的经验。

03

Flink CheckPoint奇巧 | 原理和在生产中的应用

场景描述：Flink本身为了保证其高可用的特性，以及保证作用的Exactly Once的快速恢复，进而提供了一套强大的Checkpoint机制。这个机制在原理是什么？有哪些需要注意的呢？

05

Flink大状态与Checkpint调优

第一部分讨论如何大规模执行checkpoint。最后一部分解释了一些关于规划要使用多少资源的最佳实践。

03

Flink RocksDB State Backend：when and how

流处理应用程序通常是有状态的，“记住”已处理事件的信息，并使用它来影响进一步的事件处理。在Flink中，记忆的信息（即状态）被本地存储在配置的状态后端中。为了防止发生故障时丢失数据，状态后端会定期将其内容快照保存到预先配置的持久性存储中。该RocksDB[1]状态后端（即RocksDBStateBackend）是Flink中的三个内置状态后端之一。这篇博客文章将指导您了解使用RocksDB管理应用程序状态的好处，解释何时以及如何使用它，以及清除一些常见的误解。话虽如此，这不是一篇说明RocksDB如何深入工作或如何进行高级故障排除和性能调整的博客文章；如果您需要任何有关这些主题的帮助，可以联系Flink用户邮件列表[2]。

03

全网最全系列 | Flink原理+知识点总结（4万字、41知识点，66张图）

Flink四大基石分别是：Time （时间）、Window（窗口）、State （状态）、Checkpoint（检查点）。

03

Flink State 状态原理解析

State 用于记录 Flink 应用在运行过程中，算子的中间计算结果或者元数据信息。运行中的 Flink 应用如果需要上次计算结果进行处理的，则需要使用状态存储中间计算结果。如 Join、窗口聚合场景。

01

进阶 Flink 应用模式 Vol.3-自定义窗口处理

在本系列的前几篇文章中，我们描述了如何基于动态更新的配置（一组欺诈检测规则）实现灵活的流分区，以及如何利用 Flink 的广播机制在运行时在相关算子之间分配处理配置.

05

配置了 RocksDB，Flink 中所有状态数据都会存在 RocksDB 吗？

在说背景前，先说一下标题的结论：你配置的 rocksdb 只会影响 flink 任务中 keyed state 存储的方式和地方，flink 任务中的 operator state 不会受到影响。

03

Flink State 可以代替数据库吗？

有状态的计算作为容错以及数据一致性的保证，是当今实时计算必不可少的特性之一，流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据，部分情况下甚至可以直接用 State 存储结果数据，这让业界不禁思考: State 和 Database 是何种关系？有没有可能用 State 来代替数据库呢？

01

爆肝 3 月，3w 字、15 章节详解 Flink 状态管理！（建议收藏）

不多说了，本文从盘古开天辟地（状态是啥？）开始说 Flink State。如下为本文目录，诚意满满。

02

Flink学习笔记(5) -- Flink 状态(State)管理与恢复

我们前面写的word count的例子，没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。

02

一文搞懂 Flink 中的锁

之前在介绍 flink timer 的时候( 一文搞懂 Flink Timer ) 官网有这样的一句话

02

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。

01

Flink 1.10 新特性研究

Flink 1.10 release 文档描述了一些比较重要的点，比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别，如果你准备将 Flink 升级到 1.10 版本，建议仔细看完下面的内容。

04

Apache Flink 中广播状态的实用指南

Via：https://flink.apache.org/2019/06/26/broadcast-state.html 自版本 Flink 1.5.0 以来，Apache Flink 提供了一种新的状态类型，称为广播状态（Broadcast State）。在本文中，将解释什么是广播状态，并通过示例演示如何将广播状态应用在评估基于事件流的动态模式的应用程序，并指导大家学习广播状态的处理步骤和相关源码，以便在今后的实践中能实现此类的应用。

01

零基础学Flink：状态与容错

在上一篇《零基础学Flink：实时热销榜Top5（案例）》文档中我们介绍了如何计算实时热销榜。在案例的最后TopNHot类中，我们使用了状态类。

02

State Processor API：如何读取，写入和修改 Flink 应用程序的状态

过去无论是在生产中使用，还是调研 Apache Flink，总会遇到一个问题：如何访问和更新 Flink 保存点（savepoint）中保存的 state？Apache Flink 1.9 引入了状态处理器（State Processor）API，它是基于 DataSet API 的强大扩展，允许读取，写入和修改 Flink 的保存点和检查点（checkpoint）中的状态。

02

2021年最新最全Flink系列教程__Flink容错机制(五)

day05_Flink容错机制今日目标 Flink容错机制之Checkpoint Flink容错机制之重启策略存储介质StateBackend Checkpoint 配置方式状态恢复和重启策略 Savepoint手动重启并恢复并行度设置 Flink状态管理状态就是基于 key 或者算子 operator 的中间结果 Flink state 分为两种： Managed state - 托管状态， Raw state - 原始状态 Managed state 分为两种： k

02

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。

03

深入理解 Flink 容错机制

场景描述：作为分布式系统，尤其是对延迟敏感的实时计算引擎，Apache Flink 需要有强大的容错机制，以确保在出现机器故障或网络分区等不可预知的问题时可以快速自动恢复并依旧能产生准确的计算结果。

03

大数据计算引擎，选 Flink 还是 Spark？

我是 2018 年 6 月加入公司，一直负责监控平台的告警系统。之后，我们的整个监控平台架构中途换过两次，其中一次架构发生了巨大的变化。我们监控告警平台最早的架构如下图所示：

01

关于 Flink 状态与容错机制

Flink 作为新一代基于事件流的、真正意义上的流批一体的大数据处理引擎，正在逐渐得到广大开发者们的青睐。就从我自身的视角看，最近也是在数据团队把一些原本由 Flume、SparkStreaming、Storm 编写的流式作业往 Flink 迁移，它们之间的优劣对比本篇暂不讨论。

02

Flink1.8.0重大更新-Flink中State的自动清除详解

在我们开发Flink应用时，许多有状态流应用程序的一个常见要求是自动清理应用程序状态以有效管理状态大小，或控制应用程序状态的访问时间。 TTL(Time To Live)功能在Flink 1.6.0中开始启动，并在Apache Flink中启用了应用程序状态清理和高效的状态大小管理。

07

Flink 极简教程: 架构及原理 Apache Flink® — Stateful Computations over Data Streams

Apache Flink 是一个分布式流计算引擎，用于在无边界和有边界数据流上进行有状态的计算。

04

[源码解析] Flink UDAF 背后做了什么

本文涉及到Flink SQL UDAF，Window 状态管理等部分，希望能起到抛砖引玉的作用，让大家可以借此深入了解这个领域。

02

2021年大数据Flink（二十五）：Flink 状态管理

例如,之前下面代码,直接使用即可,不需要像SparkStreaming那样还得自己写updateStateByKey

03

Flink Checkpoint机制原理剖析与参数配置

在Flink状态管理详解这篇文章中，我们介绍了Flink的状态都是基于本地的，而Flink又是一个部署在多节点的分布式引擎，分布式系统经常出现进程被杀、节点宕机或网络中断等问题，那么本地的状态在遇到故障时如何保证不丢呢？Flink定期保存状态数据到存储上，故障发生后从之前的备份中恢复，整个被称为Checkpoint机制，它为Flink提供了Exactly-Once的投递保障。本文将介绍Flink的Checkpoint机制的原理。本文会使用多个概念：快照（Snapshot）、分布式快照（Distributed Snapshot）、检查点（Checkpoint）等，这些概念均指的是Flink的Checkpoint机制，读者可以将这些概念等同看待。

03

《Flink 对线面试官》3w 字、6 大主题、30 图、36 个高频问题！（建议收藏）

兄弟们，在 18w 字《Flink SQL 成神之路》之后，我的另一篇《Flink 对线面试官》申请出战！

02

在k8s手工搭建flink+zookeeper standalone高可用集群笔记

ZOOKEEPER 3节点 FLINK JOB-MANAGER 3节点每个节点一个pod FLINK TASK-MANAGER N节点通过k8s replicas 扩缩容负载均衡 1节点

01

State Processor API：如何读写和修改 Flink 应用程序的状态

无论是在生产环境中运行 Apache Flink 还是在调研 Apache Flink，总会遇到一个问题：如何读写以及更新 Flink Savepoint 中的状态？为了解决这个问题，在 Apache Flink 1.9.0 版本引入了 State Processor API，扩展 DataSet API 实现读写以及修改 Flink Savepoint 和 Checkpoint 中状态。

02

Flink 状态管理

相对于其他流计算框架，Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存，并提供给后续的计算使用：

02

Flink 状态管理详解（State TTL、Operator state、Keyed state）

Flink官网的自我介绍：Apache Flink® — Stateful Computations over Data Streams，可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢？简单说计算任务的结果不仅仅依赖于输入，还依赖于它的当前状态。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭