学习
实践
活动
专区
工具
TVP
写文章

smartsi

LV1
举报
发表了文章

DataX 快速入门

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构...

smartsi
python
发表了文章

Flink DataStream 类型系统 TypeInformation

Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象,同时也可以输出数据对象。因此,Flink 在内部需要能够处...

smartsi
flink大数据文件存储javascala
发表了文章

Flink Table API & SQL 基本操作

本文主要展示了 Table API 和 SQL 程序的常见结构,如何创建注册 Table,查询 Table,以及如何输出 Table。

smartsi
sqlapigithubgit开源
发表了文章

Apache SeaTunnel 分布式数据集成平台

随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数...

smartsi
apachesparkflink数据分析数据库
发表了文章

Flink SourceFunction 初了解

SourceFunction 是 Flink 中所有流数据 Source 的基本接口。SourceFunction 接口继承了 Function 接口,并在内部...

smartsi
unixflink编程算法大数据文件存储
发表了文章

State Processor API:如何读写和修改 Flink 应用程序的状态

无论是在生产环境中运行 Apache Flink 还是在调研 Apache Flink,总会遇到一个问题:如何读写以及更新 Flink Savepoint 中的...

smartsi
apiflink大数据编程算法windows
发表了文章

Flink State TTL 详解

在某些场景下 Flink 用户状态一直在无限增长,一些用例需要能够自动清理旧的状态。例如,作业中定义了超长的时间窗口,或者在动态表上应用了无限范围的 GROUP...

smartsi
unixflink大数据文件存储
发表了文章

Flink SQL Kafka Connector

Kafka Connector 提供了从 Kafka topic 中消费和写入数据的能力。

smartsi
kafkanode.js文件存储编程算法flink
发表了文章

Debezium 1.9.0.Alpha2 正式发布

我很高兴宣布 Debezium 1.9 系列的第二个版本,1.9.0.Alpha2 正式发布。此版本包含了对 Oracle 21c 的支持、围绕 Redis f...

smartsi
oracle云数据库 Rediskafka编程算法
发表了文章

Flink 1.13 StateBackend 与 CheckpointStorage 拆分

Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学...

smartsi
flink大数据存储文件存储api
发表了文章

Debezium 1.9.0.Alpha1 正式发布

我很高兴宣布 Debezium 1.9 系列的第一个版本 1.9.0.Alpha1 正式发布。这是新的一年来的第一个新版本!Debezium 1.9.0.Alp...

smartsi
oracle编程算法
发表了文章

对流处理的误解

我们花了很多时间来思考流处理。更酷的是:我们也花了很多时间帮助其他人思考流处理以及如何使用流应用解决他们的数据问题。这个过程的第一步是纠正对现代流处理的误解(作...

smartsi
flink大数据windows数据处理apache
发表了文章

BookKeeper 简介

Apache BookKeeper 是企业级存储系统,旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院(Yahoo! Research)开发,作为 ...

smartsi
api存储apachezookeeper
发表了文章

Streaming 102:批处理之外的流式世界第二部分

欢迎回来!如果你错过了我之前的博文:Streaming 101:批处理之外的流式世界第一部分,我强烈建议你先花时间阅读这篇文章。在这篇文章介绍的内容是下面介绍内...

smartsi
windows数据处理编程算法
发表了文章

Streaming 101:批处理之外的流式世界第一部分

尽管这些业务需求驱动了流式处理的发展,但与批处理相比,现有的流式处理系统仍然相对不成熟,这使得该领域最近产生了许多令人兴奋的发展。在本篇文章将会介绍一些基本的背...

smartsi
windows编程算法数据处理分布式serverless
发表了文章

Flink 如何现实新的流处理应用第一部分:事件时间与无序处理

流数据处理正处于蓬勃发展中,可以提供更实时的数据以实现更好的数据洞察,同时从数据中进行分析的流程更加简化。在现实世界中数据生产是一个连续不断的过程(例如,Web...

smartsi
flink大数据数据处理unix编程算法
发表了文章

Kafka 删除 Apache ZooKeeper 的依赖

目前,Apache Kafka 使用 Apache ZooKeeper 来存储元数据,分区位置和主题配置之类的数据存储在 Kafka 之外一个单独的 ZooKe...

smartsi
kafkazookeepertcp/ipraft存储
发表了文章

深入理解 Kafka Connect 之 转换器和序列化

Kafka Connect 是 Apache Kafka 的一部分,提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说,只需要配置 JSON 文件...

smartsi
文件存储jsonkafka数据结构存储
发表了文章

Hive SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY

在这篇文章中,我们主要来了解一下 SORT BY,ORDER BY,DISTRIBUTE BY 和 CLUSTER BY 在 Hive 中的表现。

smartsi
mapreducehive
发表了文章

深入理解 Hive UDAF

用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式,第一种是 Simple 方式,第二种是...

smartsi
mapreducehivehadoop

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券