腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏作者

270

文章

582675

阅读量

53

订阅数

DataX 快速入门

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。具体请查阅：DataX 异构数据源离线同步

2022-05-01

1.5K0

Flink DataStream 类型系统 TypeInformation

flink 大数据文件存储 java scala

Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象，同时也可以输出数据对象。因此，Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时，需要对它们进行序列化和反序列化。为了能够更高效的做到这一点，Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型，并为每种数据类型生成特定的序列化器、反序列化器以及比较器。

2022-04-23

3.6K0

Flink Table API & SQL 基本操作

sql api github git 开源

本文主要展示了 Table API 和 SQL 程序的常见结构，如何创建注册 Table，查询 Table，以及如何输出 Table。

2022-04-17

2.6K0

Apache SeaTunnel 分布式数据集成平台

apache spark flink 数据分析数据库

随着互联网流量爆发式增长，越来越多的公司业务需要支撑海量数据存储，对高并发、高可用、高可扩展性等特性提出了更高的要求，这促使各种类型的数据库快速发展，至今常见数据库已经达到 200 多个。与之相伴的便是，各种数据库之间的同步与转换需求激增，数据集成便成了大数据领域的一个亟需优秀解决方案的方向。当前市面上没有一个简单易用且支持每天数百亿条海量数据同步的开源软件，于是 SeaTunnel 应运而生。

2022-04-01

4.2K0

Flink SourceFunction 初了解

unix flink 编程算法大数据文件存储

SourceFunction 是 Flink 中所有流数据 Source 的基本接口。SourceFunction 接口继承了 Function 接口，并在内部定义了数据读取使用的 run() 方法、取消运行的 cancel() 方法以及 SourceContext 内部接口：

2022-03-08

1.9K0

State Processor API：如何读写和修改 Flink 应用程序的状态

api flink 大数据编程算法 windows

无论是在生产环境中运行 Apache Flink 还是在调研 Apache Flink，总会遇到一个问题：如何读写以及更新 Flink Savepoint 中的状态？为了解决这个问题，在 Apache Flink 1.9.0 版本引入了 State Processor API，扩展 DataSet API 实现读写以及修改 Flink Savepoint 和 Checkpoint 中状态。

2022-03-07

1.4K0

Flink State TTL 详解

unix flink 大数据文件存储

在某些场景下 Flink 用户状态一直在无限增长，一些用例需要能够自动清理旧的状态。例如，作业中定义了超长的时间窗口，或者在动态表上应用了无限范围的 GROUP BY 语句。此外，目前开发人员需要自己完成 TTL 的临时实现，例如使用可能不节省存储空间的计时器服务。还有一个比较重要的点是一些法律法规也要求必须在有限时间内访问数据。

2022-03-02

3K0

Flink SQL Kafka Connector

kafka node.js 文件存储编程算法 flink

Kafka Connector 提供了从 Kafka topic 中消费和写入数据的能力。

2022-02-22

4.5K0

Debezium 1.9.0.Alpha2 正式发布

oracle 云数据库 Redis kafka 编程算法

我很高兴宣布 Debezium 1.9 系列的第二个版本，1.9.0.Alpha2 正式发布。此版本包含了对 Oracle 21c 的支持、围绕 Redis for Debezium Server 的改进、配置 kafka.query.timeout.ms 参数以及围绕 DDL 解析器、构建基础架构等的许多 Bug 修复。整体来说，在此版本修复了 51 个问题。让我们一起看看其中的一些亮点。

2022-02-22

8270

Flink 1.13 StateBackend 与 CheckpointStorage 拆分

flink 大数据存储文件存储 api

Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑，但是这个问题如此常见，我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中，我们经常会听到如下误解：

2022-02-22

2.5K0

Debezium 1.9.0.Alpha1 正式发布

oracle 编程算法

我很高兴宣布 Debezium 1.9 系列的第一个版本 1.9.0.Alpha1 正式发布。这是新的一年来的第一个新版本！Debezium 1.9.0.Alpha1 版本包含大量修复和改进，最显着的是改进了指标以及提供对 Oracle ROWID 数据类型的支持。

2022-02-04

5840

对流处理的误解

flink 大数据 windows 数据处理 apache

我们花了很多时间来思考流处理。更酷的是：我们也花了很多时间帮助其他人思考流处理以及如何使用流应用解决他们的数据问题。这个过程的第一步是纠正对现代流处理的误解（作为一个快速变化的领域，这里有很多误见值得我们思考）。在这篇文章中，我们选择了其中的 6 个进行讲解，由于 Apache Flink 是我们最熟悉的开源流处理框架，所以我们会基于 Flink 来讲解这些例子。

2022-02-04

3650

BookKeeper 简介

api 存储 apache zookeeper

Apache BookKeeper 是企业级存储系统，旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院（Yahoo! Research）开发，作为 Hadoop 分布式文件系统（HDFS）NameNode 的高可用（HA）解决方案，以解决严重的单点故障问题。

2022-02-04

1.6K0

Streaming 102:批处理之外的流式世界第二部分

windows 数据处理编程算法

欢迎回来！如果你错过了我之前的博文：Streaming 101:批处理之外的流式世界第一部分，我强烈建议你先花时间阅读这篇文章。在这篇文章介绍的内容是下面介绍内容的基础，并且当你阅读这篇文章时，我假设你已经熟悉第一篇文章中介绍的术语和概念了（有些东西在这篇文章不会详细介绍）。现在我们进入正题。先简要回顾一下，上篇文章我主要关注的三个方面：

2022-01-31

1.2K0

Streaming 101:批处理之外的流式世界第一部分

windows 编程算法数据处理分布式 serverless

尽管这些业务需求驱动了流式处理的发展，但与批处理相比，现有的流式处理系统仍然相对不成熟，这使得该领域最近产生了许多令人兴奋的发展。在本篇文章将会介绍一些基本的背景信息，再深入了解有关时间详细信息之前先明确饿一些术语的真实含义，并对批处理和流式处理的常用方法进行一些高层次的概述。

2022-01-25

4910

Flink 如何现实新的流处理应用第一部分:事件时间与无序处理

flink 大数据数据处理 unix 编程算法

流数据处理正处于蓬勃发展中，可以提供更实时的数据以实现更好的数据洞察，同时从数据中进行分析的流程更加简化。在现实世界中数据生产是一个连续不断的过程(例如，Web服务器日志，移动应用程序中的用户活跃，数据库事务或者传感器读取的数据)。正如其他人所指出的，到目前为止，大部分数据架构都是建立在数据是有限的、静态的这样的基本假设之上。为了缩减连续数据生产和旧”批处理”系统局限性之间的这一根本差距，引入了复杂而脆弱(fragile)的端到端管道。现代流处理技术通过以现实世界事件产生的形式对数据进行建模和处理，从而减轻了对复杂解决方案的依赖。

2022-01-18

8130

Kafka 删除 Apache ZooKeeper 的依赖

kafka zookeeper tcp/ip raft 存储

目前，Apache Kafka 使用 Apache ZooKeeper 来存储元数据，分区位置和主题配置之类的数据存储在 Kafka 之外一个单独的 ZooKeeper 集群中。2019 年，为了打破这种依赖关系并将元数据管理交由 Kafka，为此引入这个KIP-500 计划[1]。

2022-01-18

1.1K0

深入理解 Kafka Connect 之转换器和序列化

文件存储 json kafka 数据结构存储

Kafka Connect 是 Apache Kafka 的一部分，提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说，只需要配置 JSON 文件就可以使用。Kafka 为一些常见数据存储的提供了 Connector，比如，JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说，Kafka Connect 提供了丰富的 API，如果有必要还可以开发其他 Connector。除此之外，还提供了用于配置和管理 Connector 的 REST API。

2021-12-27

2.8K0

Hive SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY

在这篇文章中，我们主要来了解一下 SORT BY，ORDER BY，DISTRIBUTE BY 和 CLUSTER BY 在 Hive 中的表现。

2021-12-16

1.7K0

深入理解 Hive UDAF

mapreduce hive hadoop

用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式，第一种是 Simple 方式，第二种是 Generic 方式。

2021-12-14

3.1K1

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态