腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏作者

270

文章

583372

阅读量

53

订阅数

Flink DataStream 类型系统 TypeInformation

flink 大数据文件存储 java scala

Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象，同时也可以输出数据对象。因此，Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时，需要对它们进行序列化和反序列化。为了能够更高效的做到这一点，Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型，并为每种数据类型生成特定的序列化器、反序列化器以及比较器。

2022-04-23

3.6K0

<转>Flink SQL TableEnvironment 如何选择

批量计算 scala java sql

本文为 Flink SQL 系列文章的第二篇，前面对 Flink 1.9 Table 新架构及 Planner 的使用进行了详细说明，本文详细讲解 5 个 TableEnvironment 及其适用场景，并介绍 Flink 社区对 TableEnvironment 的未来规划。主要内容如下：

2021-06-21

1.2K0

Flink Kafka Connector

kafka 文件存储 java scala

Apache Flink 内置了多个 Kafka Connector：通用、0.10、0.11等。这个通用的 Kafka Connector 会尝试追踪最新版本的 Kafka 客户端。不同 Flink 发行版之间其使用的客户端版本可能会发生改变。现在的 Kafka 客户端可以向后兼容 0.10.0 或更高版本的 Broker。对于大多数用户使用通用的 Kafka Connector 就可以了。但对于 0.11.x 和 0.10.x 版本的 Kafka 用户，我们建议分别使用专用的 0.11 和 0.10 Connector。有关 Kafka 兼容性的详细信息，请参阅 Kafka官方文档。

2020-11-03

4.6K0

Spark Streaming 与 Kafka0.8 整合

spark api zookeeper python scala

在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法，一种为使用 Receivers 和 Kafka 高级API的旧方法，以及不使用 Receivers 的新方法（在 Spark 1.3 中引入）。它们具有不同的编程模型，性能特征和语义保证。就目前的 Spark 版本而言，这两种方法都被为稳定的API。

2019-08-08

2.2K1

Spark2.3.0 RDD操作

spark java scala mapreduce

例如，map 是一个转换操作，传递给每个数据集元素一个函数并返回一个新 RDD 表示返回结果。另一方面，reduce 是一个动作操作，使用一些函数聚合 RDD 的所有元素并将最终结果返回给驱动程序（尽管还有一个并行的 reduceByKey 返回一个分布式数据集）。

2019-08-07

2.3K0

Scala 学习笔记之提取器

scala 编程算法

扩展到可以应用于函数之外的值．如果 f 不是函数或方法，那么这个表达式就等同于调用:

2019-08-07

5590

Spark Streaming 2.2.0 初始化StreamingContext

java scala spark python

为了初始化 Spark Streaming 程序，必须创建一个 StreamingContext 对象，它是 Spark Streaming 所有流操作的主要入口。StreamingContext 对象可以用 SparkConf 对象创建。

2019-08-07

1.3K0

Spark2.3.0 引入Spark

scala 大数据 java spark

Spark 2.3.0 支持用于简洁编写函数的 lambda 表达式，你也可以使用 org.apache.spark.api.java.function 包中的类。

2019-08-07

8720

Flink1.4 窗口函数

mapreduce java scala 大数据

在定义窗口分配器之后，我们需要在每个窗口上指定我们要执行的计算。这是窗口函数的责任，一旦系统确定窗口准备好处理数据，窗口函数就处理每个窗口中的元素。

2019-08-07

1.6K0

Flink1.4 Operator概述

java scala 大数据编程算法

算子(Operator)将一个或多个 DataStream 转换为新的 DataStream。程序可以将多个转换组合成复杂的数据流拓扑。

2019-08-07

3.2K0

Flink1.4 内置的时间戳提取器和Watermark生成器

unix scala java kafka 大数据

如Flink1.4 生成时间戳与Watermarks所介绍的，Flink提供了一个抽象类，允许程序员可以分配自己的时间戳并发送Watermark。更具体地说，可以通过AssignerWithPeriodicWatermarks或AssignerWithPunctuatedWatermarks接口来实现，具体实现取决于用户具体情况。第一个接口将周期性的发送Watermark，第二个则基于传入记录的某些属性发送Watermark，例如，当在流中遇到特殊元素时。

2019-08-07

1.2K0

Flink HDFS Connector

scala java hadoop 编程算法

此连接器提供一个 Sink，将分区文件写入 Hadoop FileSystem 支持的任何文件系统。要使用此连接器，添加以下依赖项：

2019-08-07

1.9K0

Flink1.4 生成时间戳与Watermarks

unix kafka scala java

本节适用于在事件时间上运行的程序。有关事件时间，处理时间和提取时间的介绍，请参阅Flink1.4 事件时间与处理时间。

2019-08-07

2.1K0

Spark SparkSession:一个新的入口

sql spark hadoop java scala

在 Spark 1.x 中，使用 HiveContext 作为 DataFrame API 的入口显得并不直观。在 Spark 2.0 引入 SparkSession 作为一个新的入口，并且包含 SQLContext 和 HiveContext 的特性，同时为了向后兼容，两者都保留下来。SparkSession 有很多特性，在这里我们展示一些更重要的特性。

2019-08-07

3.1K0

Spark 如何使用DataSets

spark api java 文件存储 scala

开发人员一直非常喜欢Apache Spark，它提供简单但功能强大的API，这些特性的组合使得用最少的代码就可以进行复杂的分析。我们通过引入 DataFrames 和 Spark SQL 继续推动 Spark 的可用性和性能。这些是用于处理结构化数据（例如数据库表，JSON文件）的高级API，这些 API 可让 Spark 自动优化存储和计算。在这些 API 背后，Catalyst 优化器和 Tungsten 执行引擎用 Spark 面向对象（RDD）API无法实现的方式优化应用程序，例如以原始二进制形式对数据进行操作。

2019-08-07

3K0

Spark2.3.0 共享变量

编程算法 spark java scala

通常情况下，传递给 Spark 操作（例如 map 或 reduce）的函数是在远程集群节点上执行的，函数中使用的变量，在多个节点上执行时是同一变量的多个副本。这些变量被拷贝到每台机器上，并且在远程机器上对变量的更新不会回传给驱动程序。在任务之间支持通用的，可读写的共享变量是效率是非常低的。所以，Spark 提供了两种类型的共享变量 : 广播变量（broadcast variables）和累加器（accumulators）。

2019-08-07

1K0

Flink1.4 安装与启动

大数据 java scala windows

Flink 可以运行在 Linux, Mac OS X和Windows上。为了运行Flink, 唯一的要求是必须在Java 7.x (或者更高版本)上安装。Windows 用户, 请查看 Flink在Windows上的安装指南。

2019-08-07

6930

Flink 如何使用ProcessFunction

unix scala java 大数据

ProcessFunction 函数是低阶流处理算子，可以访问流应用程序所有（非循环）基本构建块：

2019-08-07

6.6K0

Spark SQL DataFrame与RDD交互

java spark sql scala

Spark SQL 支持自动将 JavaBeans 的 RDD 转换为 DataFrame。使用反射获取的 BeanInfo 定义了表的 schema。目前为止，Spark SQL 还不支持包含 Map 字段的 JavaBean。但是支持嵌套的 JavaBeans，List 以及 Array 字段。你可以通过创建一个实现 Serializable 的类并为其所有字段设置 getter 和 setter 方法来创建一个 JavaBean。

2019-08-07

1.7K0

Flink1.7发布中的新功能

sql 大数据 apache api scala

Apache Flink 社区正式宣布 Apache Flink 1.7.0 发布。最新版本包括解决了420多个问题以及令人兴奋的新增功能，我们将在本文进行描述。有关更多的详细信息请查看完整目录。

2019-08-07

9010

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态