首页
学习
活动
专区
工具
TVP
发布

SmartSi

专栏作者
270
文章
587623
阅读量
53
订阅数
Flink DataStream 类型系统 TypeInformation
Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象,同时也可以输出数据对象。因此,Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时,需要对它们进行序列化和反序列化。为了能够更高效的做到这一点,Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型,并为每种数据类型生成特定的序列化器、反序列化器以及比较器。
smartsi
2022-04-23
3.7K0
Flink SourceFunction 初了解
SourceFunction 是 Flink 中所有流数据 Source 的基本接口。SourceFunction 接口继承了 Function 接口,并在内部定义了数据读取使用的 run() 方法、取消运行的 cancel() 方法以及 SourceContext 内部接口:
smartsi
2022-03-08
1.9K0
Flink State TTL 详解
在某些场景下 Flink 用户状态一直在无限增长,一些用例需要能够自动清理旧的状态。例如,作业中定义了超长的时间窗口,或者在动态表上应用了无限范围的 GROUP BY 语句。此外,目前开发人员需要自己完成 TTL 的临时实现,例如使用可能不节省存储空间的计时器服务。还有一个比较重要的点是一些法律法规也要求必须在有限时间内访问数据。
smartsi
2022-03-02
3.1K0
Flink SQL Kafka Connector
Kafka Connector 提供了从 Kafka topic 中消费和写入数据的能力。
smartsi
2022-02-22
4.6K0
Flink 1.13 StateBackend 与 CheckpointStorage 拆分
Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑,但是这个问题如此常见,我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中,我们经常会听到如下误解:
smartsi
2022-02-22
2.5K0
深入理解 Kafka Connect 之 转换器和序列化
Kafka Connect 是 Apache Kafka 的一部分,提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说,只需要配置 JSON 文件就可以使用 。Kafka 为一些常见数据存储的提供了 Connector,比如,JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说,Kafka Connect 提供了丰富的 API,如果有必要还可以开发其他 Connector。除此之外,还提供了用于配置和管理 Connector 的 REST API。
smartsi
2021-12-27
2.9K0
Flink Kafka Connector
Apache Flink 内置了多个 Kafka Connector:通用、0.10、0.11等。这个通用的 Kafka Connector 会尝试追踪最新版本的 Kafka 客户端。不同 Flink 发行版之间其使用的客户端版本可能会发生改变。现在的 Kafka 客户端可以向后兼容 0.10.0 或更高版本的 Broker。对于大多数用户使用通用的 Kafka Connector 就可以了。但对于 0.11.x 和 0.10.x 版本的 Kafka 用户,我们建议分别使用专用的 0.11 和 0.10 Connector。有关 Kafka 兼容性的详细信息,请参阅 Kafka官方文档。
smartsi
2020-11-03
4.6K0
Java 实现 Kafka Producer
在本文章中,我们创建一个简单的 Java 生产者示例。我们会创建一个名为 my-topic Kafka 主题(Topic),然后创建一个使用该主题发送记录的 Kafka 生产者。Kafka 发送记录可以使用同步方式,也可以使用异步方式。
smartsi
2020-10-16
3.5K0
Presto 核心数据结构:Slice、Page、Block
在 Presto 中,我们需要了解一些非常重要的数据结构,例如,Slice,Block 以及 Page,下面将介绍这些数据结构。
smartsi
2020-07-06
2.5K0
Spark2.3.0 持久化
Spark 中最重要的功能之一是在操作之间将数据集持久化(缓存)在内存中。当你持久化一个 RDD 时,每个节点都会保存 RDD 的任意分区,RDD在内存中计算时该数据集(或从其派生的数据集)上的其他 Action 可以重用它。这样可以使后面的 Action 操作执行的更快(通常超过10倍)。缓存是迭代算法和快速交互的关键工具。
smartsi
2019-08-07
5130
Spark 如何使用DataSets
开发人员一直非常喜欢Apache Spark,它提供简单但功能强大的API,这些特性的组合使得用最少的代码就可以进行复杂的分析。我们通过引入 DataFrames 和 Spark SQL 继续推动 Spark 的可用性和性能。这些是用于处理结构化数据(例如数据库表,JSON文件)的高级API,这些 API 可让 Spark 自动优化存储和计算。在这些 API 背后,Catalyst 优化器和 Tungsten 执行引擎用 Spark 面向对象(RDD)API无法实现的方式优化应用程序,例如以原始二进制形式对数据进行操作。
smartsi
2019-08-07
3K0
Spark内部原理之内存管理
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。
smartsi
2019-08-07
7100
Spark Task not serializable
当你在 Driver(master)上初始化变量,然后在其中一个 worker 上尝试使用它时,可能会触发上述错误。在这种情况下,Spark Streaming 会尝试序列化该对象以将其发送给 worker,如果对象不可序列化,就会失败。考虑下面的代码片段:
smartsi
2019-08-07
2K0
Hive 启用压缩
对于数据密集型任务,I/O操作和网络数据传输需要花费相当长的时间才能完成。通过在 Hive 中启用压缩功能,我们可以提高 Hive 查询的性能,并节省 HDFS 集群上的存储空间。
smartsi
2019-08-07
1.8K0
Flink1.4 状态概述
有状态的函数和算子在处理单个元素/事件时存储数据,使得状态state成为任何精细操作的关键构件。
smartsi
2019-08-07
6540
Flink1.4 处理背压
人们经常会问Flink是如何处理背压(backpressure)效应的。 答案很简单:Flink不使用任何复杂的机制,因为它不需要任何处理机制。它只凭借数据流引擎,就可以从容地应对背压。在这篇博文中,我们介绍一下背压。然后,我们深入了解 Flink 运行时如何在任务之间传送缓冲区中的数据,并展示流数传输自然双倍下降的背压机制(how streaming data shipping naturally doubles down as a backpressure mechanism)。 我们最终通过一个小实验展示了这一点。
smartsi
2019-08-07
1.7K0
Python 文件处理
记录中的字段通常由逗号分隔,但其他分隔符也是比较常见的,例如制表符(制表符分隔值,TSV)、冒号、分号和竖直条等。建议在自己创建的文件中坚持使用逗号作为分隔符,同时保证编写的处理程序能正确处理使用其他分隔符的CSV文件。
smartsi
2019-08-07
7.1K0
4个步骤让Flink应用程序达到生产状态
这篇文章阐述了 Flink 应用程序达到生产状态所必须的配置步骤。在以下部分中,我们概述了在 Flink 作业达到生产状态之前技术领导、DevOps、工程师们需要仔细考虑的重要配置参数。Flink 为大多数配置选项都提供了开箱即用的默认选项,在许多情况下它们是POC阶段(概念验证)或探索 Flink 不同 API 和抽象的很好的起点。
smartsi
2019-08-07
1.6K0
Roaring Bitmap更好的位图压缩算法
Bitsets(也称为Bitmaps)通常用作快速数据结构。不幸的是,他们可能会占用太多内存。为了降低内存的使用,我们经常会使用压缩的位图。
smartsi
2019-08-07
6.1K0
Hive ORC文件格式
ORC 是 Optimized Row Columnar 的缩写,ORC 文件格式提供一种高效的方法来存储Hive数据。旨在解决其他Hive文件格式的局限。当Hive读取,写入和处理数据时,使用 ORC 文件格式可以提高性能。
smartsi
2019-08-07
4.6K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档