腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏作者

270

文章

583378

阅读量

53

订阅数

Apache SeaTunnel 分布式数据集成平台

apache spark flink 数据分析数据库

随着互联网流量爆发式增长，越来越多的公司业务需要支撑海量数据存储，对高并发、高可用、高可扩展性等特性提出了更高的要求，这促使各种类型的数据库快速发展，至今常见数据库已经达到 200 多个。与之相伴的便是，各种数据库之间的同步与转换需求激增，数据集成便成了大数据领域的一个亟需优秀解决方案的方向。当前市面上没有一个简单易用且支持每天数百亿条海量数据同步的开源软件，于是 SeaTunnel 应运而生。

2022-04-01

4.2K0

对流处理的误解

flink 大数据 windows 数据处理 apache

我们花了很多时间来思考流处理。更酷的是：我们也花了很多时间帮助其他人思考流处理以及如何使用流应用解决他们的数据问题。这个过程的第一步是纠正对现代流处理的误解（作为一个快速变化的领域，这里有很多误见值得我们思考）。在这篇文章中，我们选择了其中的 6 个进行讲解，由于 Apache Flink 是我们最熟悉的开源流处理框架，所以我们会基于 Flink 来讲解这些例子。

2022-02-04

3670

BookKeeper 简介

api 存储 apache zookeeper

Apache BookKeeper 是企业级存储系统，旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院（Yahoo! Research）开发，作为 Hadoop 分布式文件系统（HDFS）NameNode 的高可用（HA）解决方案，以解决严重的单点故障问题。

2022-02-04

1.6K0

Debezium 初了解

kafka apache 数据库 sql 云数据库 SQL Server

在研究 Flink CDC 时，其中涉及了 Debezium，便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么，以及它的架构和特性。后续文章中会后续介绍其功能特性以及如何使用。

2021-08-13

5.3K0

Flink 管理大型状态之增量 Checkpoint

flink 大数据 apache

Apache Flink 是一个有状态的流处理框架。什么是流处理应用程序的状态呢？你可以理解状态为应用程序算子中的内存。状态在流计算很多复杂场景中非常重要，比如：

2021-07-27

3K0

Flink 状态TTL如何限制状态的生命周期

flink 大数据 apache 存储 unix

很多有状态流应用程序的常见需求是能够控制应用程序状态的访问时长以及何时删除它。这篇文章介绍了在 1.6.0 版本添加到 Flink 的状态生命周期时间（TTL）功能。

2021-06-29

1.7K0

Flink 窗口之Window机制

flink 大数据 api apache 编程算法

数据分析场景见证了批处理到流处理的演变过程。尽管批处理可以作为流处理的一种特殊情况来处理，但分析永无止境的流数据通常需要转变一种思维方式，并使用它自己的专门术语，例如，窗口、At-Least-Once 或者 Exactly-Once 处理语义。

2021-02-04

1.3K0

Flink Savepoints和Checkpoints的3个不同点

flink 大数据 apache 编程算法腾讯云测试服务

在本文中，我们将解释什么是 Savepoint，什么会使用它们，并就它们与 Checkpoint 的区别进行对比分析。

2020-12-29

3.2K0

Flink单元测试指南

flink 大数据单元测试腾讯云测试服务 apache

编写单元测试是设计生产应用程序的基本任务之一。如果不进行测试，那么一个很小的代码变更都会导致生产任务的失败。因此，无论是清理数据、模型训练的简单作业，还是复杂的多租户实时数据处理系统，我们都应该为所有类型的应用程序编写单元测试。下面我们将提供有关 Apache Flink 应用程序的单元测试指南。Apache Flink 提供了一个强大的单元测试框架，以确保我们的应用程序在上线后符合我们的预期。

2020-11-11

3.3K0

Kafka 监控工具之CMAK

jdk kafka zookeeper 打包 apache

CMAK(Cluster Manager for Apache Kafka) 是由 Yahoo 开源的 Kafka 集群管理平台。我们可能听到更多的是 kafka-manager。主要是因为误用了 Apache 的商标，所以才从 kafka-manager 改名为 CMAK。

2020-10-27

4.3K0

Stream 分布式数据流的轻量级异步快照

大数据 apache 编程算法分布式

分布式有状态流处理支持在云中部署和执行大规模连续计算，主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先，他们经常拖延影响数据摄取的整体计算过程。其次，持久化存储所有传输中的记录以及算子状态，这会导致比所需的快照要更大。

2019-08-07

1K0

Flink 内部原理之数据流容错

编程算法大数据分布式 apache kafka

Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下，程序的状态也将最终反映每条记录来自数据流严格一次exactly once。请注意，有一个开关可以降级为保证至少一次(least once)（如下所述）。

2019-08-07

8850

Flink1.4 保存点之回溯时间

大数据 apache

这篇文章是系列文章的第一篇，数据工匠团队会在这里为大家展示一些Apache Flink的核心功能。

2019-08-07

9160

Stream 对于流处理技术的谬见

大数据 unix windows apache

我们在思考流处理问题上花了很多时间，更酷的是，我们也花了很多时间帮助其他人认识流处理，以及如何在他们的组织里应用流处理来解决数据问题。

2019-08-07

5220

ElasticSearch安装与启动

Elasticsearch Service http jdk apache

检查JDK版本之后，我们可以下载并运行Elasticsearch。二进制文件可以从　www.elastic.co/downloads　获取，过去版本也可以从中获取。对于每个版本，您可以选择zip或tar存档，或DEB或RPM软件包。为了简单起见，我们使用tar文件。

2019-08-07

9530

Roaring Bitmap更好的位图压缩算法

编程算法 apache 存储数据结构文件存储

Bitsets（也称为Bitmaps）通常用作快速数据结构。不幸的是，他们可能会占用太多内存。为了降低内存的使用，我们经常会使用压缩的位图。

2019-08-07

6.1K0

Flink1.7发布中的新功能

sql 大数据 apache api scala

Apache Flink 社区正式宣布 Apache Flink 1.7.0 发布。最新版本包括解决了420多个问题以及令人兴奋的新增功能，我们将在本文进行描述。有关更多的详细信息请查看完整目录。

2019-08-07

9010

Flink 使用Flink进行高吞吐，低延迟和Exactly-Once语义流处理

大数据数据处理 windows apache

在本文中，我们将深入探讨Flink新颖的检查点机制是如何工作的，以及它是如何取代旧架构以实现流容错和恢复。我们在各种类型的流处理应用程序上对Flink性能进行测试，并通过在Apache Storm（一种广泛使用的低延迟流处理器）上运行相同的实验来进行对比。

2019-08-07

5.4K0

Exactly once 未必严格一次

分布式 apache

分布式事件流处理已逐渐成为大数据领域的热点话题。该领域主要的流处理引擎（SPE）包括 Apache Storm、Apache Flink、Heron、Apache Kafka（Kafka Streams）以及 Apache Spark（Spark Streaming）等。处理语义是围绕 SPE 最受关注，讨论最多的话题之一，其中”严格一次（Exactly-once）” 是很多引擎追求的目标之一，很多 SPE 均宣称可提供”严格一次”的处理语义。

2019-08-07

6250

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态