SmartSi-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏成员

270

文章

617290

阅读量

53

订阅数

Flink DataStream 类型系统 TypeInformation

flink 大数据文件存储 java scala

Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象，同时也可以输出数据对象。因此，Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时，需要对它们进行序列化和反序列化。为了能够更高效的做到这一点，Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型，并为每种数据类型生成特定的序列化器、反序列化器以及比较器。

2022-04-23

4.1K0

Flink SourceFunction 初了解

unix flink 编程算法大数据文件存储

SourceFunction 是 Flink 中所有流数据 Source 的基本接口。SourceFunction 接口继承了 Function 接口，并在内部定义了数据读取使用的 run() 方法、取消运行的 cancel() 方法以及 SourceContext 内部接口：

2022-03-08

2.1K0

Flink State TTL 详解

unix flink 大数据文件存储

在某些场景下 Flink 用户状态一直在无限增长，一些用例需要能够自动清理旧的状态。例如，作业中定义了超长的时间窗口，或者在动态表上应用了无限范围的 GROUP BY 语句。此外，目前开发人员需要自己完成 TTL 的临时实现，例如使用可能不节省存储空间的计时器服务。还有一个比较重要的点是一些法律法规也要求必须在有限时间内访问数据。

2022-03-02

3.4K0

Flink SQL Kafka Connector

kafka node.js 文件存储编程算法 flink

Kafka Connector 提供了从 Kafka topic 中消费和写入数据的能力。

2022-02-22

5.1K0

Flink 1.13 StateBackend 与 CheckpointStorage 拆分

flink 大数据存储文件存储 api

Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑，但是这个问题如此常见，我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中，我们经常会听到如下误解：

2022-02-22

2.7K0

深入理解 Kafka Connect 之转换器和序列化

文件存储 json kafka 数据结构存储

Kafka Connect 是 Apache Kafka 的一部分，提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说，只需要配置 JSON 文件就可以使用。Kafka 为一些常见数据存储的提供了 Connector，比如，JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说，Kafka Connect 提供了丰富的 API，如果有必要还可以开发其他 Connector。除此之外，还提供了用于配置和管理 Connector 的 REST API。

2021-12-27

3.2K0

Flink Kafka Connector

kafka 文件存储 java scala

Apache Flink 内置了多个 Kafka Connector：通用、0.10、0.11等。这个通用的 Kafka Connector 会尝试追踪最新版本的 Kafka 客户端。不同 Flink 发行版之间其使用的客户端版本可能会发生改变。现在的 Kafka 客户端可以向后兼容 0.10.0 或更高版本的 Broker。对于大多数用户使用通用的 Kafka Connector 就可以了。但对于 0.11.x 和 0.10.x 版本的 Kafka 用户，我们建议分别使用专用的 0.11 和 0.10 Connector。有关 Kafka 兼容性的详细信息，请参阅 Kafka官方文档。

2020-11-03

4.7K0

Java 实现 Kafka Producer

文件存储 java kafka http

在本文章中，我们创建一个简单的 Java 生产者示例。我们会创建一个名为 my-topic Kafka 主题（Topic），然后创建一个使用该主题发送记录的 Kafka 生产者。Kafka 发送记录可以使用同步方式，也可以使用异步方式。

2020-10-16

3.7K0

Presto 核心数据结构：Slice、Page、Block

编程算法文件存储 utf8 数据结构

在 Presto 中，我们需要了解一些非常重要的数据结构，例如，Slice，Block 以及 Page，下面将介绍这些数据结构。

2020-07-06

2.6K0

Spark2.3.0 持久化

文件存储 spark 缓存存储 java

Spark 中最重要的功能之一是在操作之间将数据集持久化(缓存)在内存中。当你持久化一个 RDD 时，每个节点都会保存 RDD 的任意分区，RDD在内存中计算时该数据集（或从其派生的数据集）上的其他 Action 可以重用它。这样可以使后面的 Action 操作执行的更快（通常超过10倍）。缓存是迭代算法和快速交互的关键工具。

2019-08-07

5510

Spark 如何使用DataSets

spark api java 文件存储 scala

开发人员一直非常喜欢Apache Spark，它提供简单但功能强大的API，这些特性的组合使得用最少的代码就可以进行复杂的分析。我们通过引入 DataFrames 和 Spark SQL 继续推动 Spark 的可用性和性能。这些是用于处理结构化数据（例如数据库表，JSON文件）的高级API，这些 API 可让 Spark 自动优化存储和计算。在这些 API 背后，Catalyst 优化器和 Tungsten 执行引擎用 Spark 面向对象（RDD）API无法实现的方式优化应用程序，例如以原始二进制形式对数据进行操作。

2019-08-07

3.1K0

Spark内部原理之内存管理

spark 文件存储存储 jvm 缓存

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。

2019-08-07

7340

Spark Task not serializable

当你在 Driver（master）上初始化变量，然后在其中一个 worker 上尝试使用它时，可能会触发上述错误。在这种情况下，Spark Streaming 会尝试序列化该对象以将其发送给 worker，如果对象不可序列化，就会失败。考虑下面的代码片段：

2019-08-07

2.1K0

Hive 启用压缩

文件存储 hive mapreduce shell

对于数据密集型任务，I/O操作和网络数据传输需要花费相当长的时间才能完成。通过在 Hive 中启用压缩功能，我们可以提高 Hive 查询的性能，并节省 HDFS 集群上的存储空间。

2019-08-07

1.9K0

Flink1.4 状态概述

文件存储大数据存储

有状态的函数和算子在处理单个元素/事件时存储数据，使得状态state成为任何精细操作的关键构件。

2019-08-07

6830

Flink1.4 处理背压

大数据 bash 编程算法文件存储

人们经常会问Flink是如何处理背压(backpressure)效应的。答案很简单：Flink不使用任何复杂的机制，因为它不需要任何处理机制。它只凭借数据流引擎，就可以从容地应对背压。在这篇博文中，我们介绍一下背压。然后，我们深入了解 Flink 运行时如何在任务之间传送缓冲区中的数据，并展示流数传输自然双倍下降的背压机制(how streaming data shipping naturally doubles down as a backpressure mechanism)。我们最终通过一个小实验展示了这一点。

2019-08-07

1.8K0

Python 文件处理

json python 编程算法文件存储

记录中的字段通常由逗号分隔，但其他分隔符也是比较常见的，例如制表符（制表符分隔值，TSV）、冒号、分号和竖直条等。建议在自己创建的文件中坚持使用逗号作为分隔符，同时保证编写的处理程序能正确处理使用其他分隔符的CSV文件。

2019-08-07

7.1K0

4个步骤让Flink应用程序达到生产状态

大数据文件存储分布式 uml

这篇文章阐述了 Flink 应用程序达到生产状态所必须的配置步骤。在以下部分中，我们概述了在 Flink 作业达到生产状态之前技术领导、DevOps、工程师们需要仔细考虑的重要配置参数。Flink 为大多数配置选项都提供了开箱即用的默认选项，在许多情况下它们是POC阶段（概念验证）或探索 Flink 不同 API 和抽象的很好的起点。

2019-08-07

1.7K0

Roaring Bitmap更好的位图压缩算法

编程算法 apache 存储数据结构文件存储

Bitsets（也称为Bitmaps）通常用作快速数据结构。不幸的是，他们可能会占用太多内存。为了降低内存的使用，我们经常会使用压缩的位图。

2019-08-07

6.4K0

Hive ORC文件格式

hive 存储文件存储 https 大数据

ORC 是 Optimized Row Columnar 的缩写，ORC 文件格式提供一种高效的方法来存储Hive数据。旨在解决其他Hive文件格式的局限。当Hive读取，写入和处理数据时，使用 ORC 文件格式可以提高性能。

2019-08-07

4.8K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态