SmartSi-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏成员

270

文章

617599

阅读量

53

订阅数

Flink 1.13 StateBackend 与 CheckpointStorage 拆分

flink 大数据存储文件存储 api

Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑，但是这个问题如此常见，我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中，我们经常会听到如下误解：

2022-02-22

2.7K0

BookKeeper 简介

api 存储 apache zookeeper

Apache BookKeeper 是企业级存储系统，旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院（Yahoo! Research）开发，作为 Hadoop 分布式文件系统（HDFS）NameNode 的高可用（HA）解决方案，以解决严重的单点故障问题。

2022-02-04

1.9K0

Kafka 删除 Apache ZooKeeper 的依赖

kafka zookeeper tcp/ip raft 存储

目前，Apache Kafka 使用 Apache ZooKeeper 来存储元数据，分区位置和主题配置之类的数据存储在 Kafka 之外一个单独的 ZooKeeper 集群中。2019 年，为了打破这种依赖关系并将元数据管理交由 Kafka，为此引入这个KIP-500 计划[1]。

2022-01-18

1.2K0

深入理解 Kafka Connect 之转换器和序列化

文件存储 json kafka 数据结构存储

Kafka Connect 是 Apache Kafka 的一部分，提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说，只需要配置 JSON 文件就可以使用。Kafka 为一些常见数据存储的提供了 Connector，比如，JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说，Kafka Connect 提供了丰富的 API，如果有必要还可以开发其他 Connector。除此之外，还提供了用于配置和管理 Connector 的 REST API。

2021-12-27

3.2K0

Flink中可查询状态是如何工作的

数据结构 flink 大数据存储

QueryableStates 允许用户对流的内部状态进行实时查询，而无需将结果存储到任何外部存储中。这制造了许多有趣的可能，因为我们不再需要等待系统写入外部存储（这一直是此类系统的主要瓶颈之一）。甚至可能没有任何类型的数据库能让用户的应用程序直接查询流，这将使应用程序更快、更便宜。这可能不适用于所有用例，但如果您的 Pipeline 必须维护内部状态（可能是进行一些聚合），则最好使状态可用于查询。

2021-06-29

2.3K0

Flink 状态TTL如何限制状态的生命周期

flink 大数据 apache 存储 unix

很多有状态流应用程序的常见需求是能够控制应用程序状态的访问时长以及何时删除它。这篇文章介绍了在 1.6.0 版本添加到 Flink 的状态生命周期时间（TTL）功能。

2021-06-29

1.8K0

Hive元数据服务MetaStore

hive 存储 html java 数据库

MetaSore 是 Hive 元数据存储的地方。Hive 数据库、表、函数等的定义都存储在 Metastore 中。根据系统配置方式，统计信息和授权记录也可以存储在此处。Hive 或者其他执行引擎在运行时使用此数据来确定如何解析，授权以及有效执行用户查询。

2020-09-21

9.7K0

Bitmap用户分群在贝壳DMP的实践和应用

编程算法 hive 存储 sql 数据库

DMP数据管理平台是实现用户精细化运营和和全生命周期运营的的基础平台之一。贝壳找房从2018年5月开始建设自己的DMP平台，提供了用户分群、消息推送、人群洞察等能力。关于贝壳DMP架构的介绍可参考文章：DMP平台在贝壳的实践和应用。

2020-08-24

4.9K1

深入理解HBase架构

hbase TDSQL MySQL 版存储 zookeeper html

在这篇博客文章中，我们主要深入看一下H Base 的体系结构以及在 NoSQL 数据存储解决方案主要优势。

2019-11-28

1.7K0

OpenTSDB 底层 HBase 的 Rowkey 是如何设计的

hbase TDSQL MySQL 版 unix 存储

OpenTSDB 是基于 HBase 的可扩展、开源时间序列数据库(Time Series Database)，可以用于存储监控数据、物联网传感器、金融K线等带有时间的数据。它的特点是能够提供最高毫秒级精度的时间序列数据存储，能够长久保存原始数据并且不失精度。它拥有很强的数据写入能力，支持大并发的数据写入，并且拥有可无限水平扩展的存储容量。目前，阿里云 HBase 产品是直接支持 OpenTSDB 组件的。

2019-11-27

2.1K0

HBase Schema 设计

hbase TDSQL MySQL 版数据库 sql 存储

HBase 与传统关系数据库（例如MySQL，PostgreSQL，Oracle等）在架构的设计以及为应用程序提供的功能方面有很大的不同。HBase 权衡了其中一些功能，以实现更好的可扩展性以及更灵活的模式。与关系数据库相比，HBase 表的设计有很大的不同。下面将通过解释数据模型向您介绍 HBase 表设计的基础知识，并通过一个例子深入探讨 HBase 表的设计。

2019-11-26

2.3K0

Flink1.4 检查点启用与配置

大数据存储

Flink 中的每个函数和操作符都可以是有状态的（请参阅使用状态了解详细信息）。有状态函数在处理单个元素/事件时存储数据。

2019-08-08

1.9K0

Hadoop 大量小文件问题的优化

大数据 hadoop mapreduce jvm 存储

小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。如果存储小文件，必定会有大量这样的小文件，否则你也不会使用 Hadoop，这样的文件给 Hadoop 的扩展性和性能带来严重问题。当一个文件的大小小于 HDFS 的块大小（默认64MB）就认定为小文件，否则就是大文件。为了检测输入文件的大小，可以浏览Hadoop DFS 主页，并点击 Browse filesystem（浏览文件系统）。

2019-08-08

4.5K0

Spark2.3.0 持久化

文件存储 spark 缓存存储 java

Spark 中最重要的功能之一是在操作之间将数据集持久化(缓存)在内存中。当你持久化一个 RDD 时，每个节点都会保存 RDD 的任意分区，RDD在内存中计算时该数据集（或从其派生的数据集）上的其他 Action 可以重用它。这样可以使后面的 Action 操作执行的更快（通常超过10倍）。缓存是迭代算法和快速交互的关键工具。

2019-08-07

5510

Spark内部原理之内存管理

spark 文件存储存储 jvm 缓存

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。

2019-08-07

7340

Spark Persist,Cache以及Checkpoint

spark 存储缓存

下面我们将了解每一个的用法。重用意味着将计算和数据存储在内存中，并在不同的算子中多次重复使用。通常，在处理数据时，我们需要多次使用相同的数据集。例如，许多机器学习算法（如K-Means）在生成模型之前会对数据进行多次迭代。如果处理过程中的中间结果没有持久存储在内存中，这意味着你需要将中间结果存储在磁盘上，这会降低整体性能，因为与RAM相比，从磁盘访问数据就像是从隔壁或从其他国家获取内容。下面我们看一下在不同存储设备上的访问时间：

2019-08-07

1.8K0

Flink1.4 状态终端

大数据存储 java

状态可以存储在Java的堆内或堆外。根据你的状态终端，Flink 也可以管理应用程序的状态，这意味着 Flink 可以处理内存管理（可能会溢出到磁盘，如果有必要），以允许应用程序存储非常大的状态。默认情况下，配置文件 flink-conf.yaml 为所有Flink作业决定其状态终端。

2019-08-07

7210

Flink1.4 状态概述

文件存储大数据存储

有状态的函数和算子在处理单个元素/事件时存储数据，使得状态state成为任何精细操作的关键构件。

2019-08-07

6830

ElasticSearch 索引

Elasticsearch Service 数据库 sql 存储

假设我们刚好在一家工作，这时人力资源部门出于某种目的需要让我们创建一个员工目录，它有以下不同的需求：

2019-08-07

5240

Roaring Bitmap更好的位图压缩算法

编程算法 apache 存储数据结构文件存储

Bitsets（也称为Bitmaps）通常用作快速数据结构。不幸的是，他们可能会占用太多内存。为了降低内存的使用，我们经常会使用压缩的位图。

2019-08-07

6.4K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态