腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏作者

270

文章

583760

阅读量

53

订阅数

Flink Table API & SQL 基本操作

sql api github git 开源

本文主要展示了 Table API 和 SQL 程序的常见结构，如何创建注册 Table，查询 Table，以及如何输出 Table。

2022-04-17

2.6K0

State Processor API：如何读写和修改 Flink 应用程序的状态

api flink 大数据编程算法 windows

无论是在生产环境中运行 Apache Flink 还是在调研 Apache Flink，总会遇到一个问题：如何读写以及更新 Flink Savepoint 中的状态？为了解决这个问题，在 Apache Flink 1.9.0 版本引入了 State Processor API，扩展 DataSet API 实现读写以及修改 Flink Savepoint 和 Checkpoint 中状态。

2022-03-07

1.4K0

Flink 1.13 StateBackend 与 CheckpointStorage 拆分

flink 大数据存储文件存储 api

Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑，但是这个问题如此常见，我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中，我们经常会听到如下误解：

2022-02-22

2.5K0

BookKeeper 简介

api 存储 apache zookeeper

Apache BookKeeper 是企业级存储系统，旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院（Yahoo! Research）开发，作为 Hadoop 分布式文件系统（HDFS）NameNode 的高可用（HA）解决方案，以解决严重的单点故障问题。

2022-02-04

1.6K0

Kafka Connect 如何构建实时数据管道

kafka json node.js api 分布式

Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化，以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统，所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题（Schema 管理、容错、并行性、延迟、投递语义等），每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。

2021-09-23

1.6K0

Flink 窗口之Window机制

flink 大数据 api apache 编程算法

数据分析场景见证了批处理到流处理的演变过程。尽管批处理可以作为流处理的一种特殊情况来处理，但分析永无止境的流数据通常需要转变一种思维方式，并使用它自己的专门术语，例如，窗口、At-Least-Once 或者 Exactly-Once 处理语义。

2021-02-04

1.3K0

Flink监控 Rest API

api 网站 flink 大数据

Flink具有监控 API，可用于查询正在运行的作业以及最近完成的作业的状态和统计信息。Flink 自己的仪表板也使用了这些监控 API，但监控 API 主要是为了自定义监视工具设计的。监控 API 是 REST-ful API，接受 HTTP 请求并返回 JSON 数据响应。

2020-11-16

3.4K0

HBase Java Client API

hbase TDSQL MySQL 版 api http unix

在这篇文章中，我们看一下 HBase Java 客户端 API 如何使用。HBase 用 Java 编写，并提供 Java API 与之通信。客户端 API 提供了DDL（数据定义语言）和DML（数据操作语言）语义，这与我们在关系数据库中的语义非常相似。因此，我们学习一下如何使用 HBase 的 Java 客户端 API 对 HBase 表进行 CRUD 操作。

2020-02-12

2.2K0

Storm UI REST API

编程算法 api

Storm UI 守护进程提供了 REST API, 允许我们与 Storm 集群进行交互, 其中包括查看指标数据，配置信息以及启动或停止拓扑的管理操作。REST API 结果以 JSON 形式返回。

2019-11-28

1.9K0

Spark Streaming 2.2.0 Input DStreams和Receivers

spark kafka 编程算法 api

输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中，lines 表示输入DStream，它代表从netcat服务器获取的数据流。每一个输入DStream(除 file stream)都与一个 Receiver (接收器)相关联，接收器从 source 中获取数据，并将数据存入 Spark 内存中来进行处理。输入 DStreams 表示从数据源获取的原始数据流。Spark Streaming 提供了两类内置的流源（streaming sources）：

2019-08-08

7850

Spark Streaming 与 Kafka0.8 整合

spark api zookeeper python scala

在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法，一种为使用 Receivers 和 Kafka 高级API的旧方法，以及不使用 Receivers 的新方法（在 Spark 1.3 中引入）。它们具有不同的编程模型，性能特征和语义保证。就目前的 Spark 版本而言，这两种方法都被为稳定的API。

2019-08-08

2.2K1

Flink 动态表的持续查询

sql api 大数据 windows

越来越多的公司采用流处理，并将现有的批处理应用迁移到流处理，或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上，分析的数据流来自各种源，例如数据库事务、点击、传感器测量或IoT 设备。

2019-08-08

2K0

Spark Streaming 2.2.0 Example

spark kafka java api maven

Spark Streaming 是 Spark Core API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等许多源中提取，并且可以使用由诸如map，reduce，join或者 window 等高级函数组成的复杂算法来处理。最后，处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上，你可以将处理后的数据应用到 Spark 的机器学习算法、图处理算法中去。

2019-08-08

1.2K0

Spark 在Spark2.0中如何使用SparkSession

sql api hive python json

除了有时限的交互之外，SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互，并允许使用 DataFrame 和 Dataset API 对 Spark 进行编程。最重要的是，它减少了开发人员在与 Spark 进行交互时必须了解和构造概念的数量。

2019-08-08

4.5K0

Flink1.4 数据流类型与转换关系

大数据编程算法 api

Flink 为流处理和批处理分别提供了 DataStream API 和 DataSet API。正是这种高层的抽象和 flunent API 极大地便利了用户编写大数据应用。不过很多初学者在看到官方文档中那一大坨的转换时，常常会蒙了圈，文档中那些只言片语也很难讲清它们之间的关系。所以本文将介绍几种关键的数据流类型，它们之间是如何通过转换关联起来的。下图展示了 Flink 中目前支持的主要几种流的类型，以及它们之间的转换关系。

2019-08-07

1.5K0

Spark2.3.0 创建RDD

spark java hadoop 分布式 api

Spark的核心概念是弹性分布式数据集（RDD），RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象：

2019-08-07

8170

Spark 2.3.0 重要特性介绍

kubernetes api spark sql

为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.3 在许多模块都做了重要的更新，比如 Structured Streaming 引入了低延迟的持续处理；支持 stream-to-stream joins；通过改善 pandas UDFs 的性能来提升 PySpark；支持第四种调度引擎 Kubernetes clusters（其他三种分别是自带的独立模式Standalone，YARN、Mesos）。除了这些比较具有里程碑的重要功能外，Spark 2.3 还有以下几个重要的更新：

2019-08-07

1.5K0

ElasticSearch 近实时搜索

缓存 Elasticsearch Service api

随着按段搜索的发展，索引文档与文档可被搜索的延迟显着下降。新文档可以在数分钟内可被搜索，但仍然不够快。

2019-08-07

7890

Spark Streaming 与 Kafka 整合的改进

kafka spark api python

Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此，在 Apache Spark 1.3 中，我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下：

2019-08-07

7370

Flink1.4 用于外部数据访问的异步IO

数据库 sql javascript node.js api

当与外部系统交互时（例如，使用存储在数据库中数据丰富流事件），需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。访问外部数据库中的数据（例如在 MapFunction 中）通常意味着同步交互：将请求发送到数据库，MapFunction 会等待直到收到响应。在许多情况下，这个等待时间占了该函数绝大部分时间。

2019-08-07

8800

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态