腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏作者

270

文章

581607

阅读量

53

订阅数

Streaming 101:批处理之外的流式世界第一部分

windows 编程算法数据处理分布式 serverless

尽管这些业务需求驱动了流式处理的发展，但与批处理相比，现有的流式处理系统仍然相对不成熟，这使得该领域最近产生了许多令人兴奋的发展。在本篇文章将会介绍一些基本的背景信息，再深入了解有关时间详细信息之前先明确饿一些术语的真实含义，并对批处理和流式处理的常用方法进行一些高层次的概述。

2022-01-25

4900

Kafka Connect 如何构建实时数据管道

kafka json node.js api 分布式

Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化，以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统，所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题（Schema 管理、容错、并行性、延迟、投递语义等），每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。

2021-09-23

1.6K0

了解HBase与BigTable

hbase TDSQL MySQL 版分布式 unix 数据库

在学习HBase（Google BigTable 的开源实现）的时候，我们面临的最为困难的地方就是需要你重构你的思路来理解 BigTable 的概念。

2019-11-27

1.8K0

图解CAP定理

分布式编程算法

CAP 定理是分布式系统中的一个重要的基本定理，指出任何分布式系统最多只能具有以下三个属性中的其中两个：

2019-11-27

5840

Stream 分布式数据流的轻量级异步快照

大数据 apache 编程算法分布式

分布式有状态流处理支持在云中部署和执行大规模连续计算，主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先，他们经常拖延影响数据摄取的整体计算过程。其次，持久化存储所有传输中的记录以及算子状态，这会导致比所需的快照要更大。

2019-08-07

9990

ElasticSearch Scroll游标搜索

Elasticsearch Service javascript 分布式

在ElasticSearch 分页搜索一文中，我们了解到分布式系统中深度分页。在这里我们再具体的了解一下深度分页，可能带来的问题，以及 ElasticSearch 给出的解决方案。

2019-08-07

2.2K0

Spark2.3.0 创建RDD

spark java hadoop 分布式 api

Spark的核心概念是弹性分布式数据集（RDD），RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象：

2019-08-07

8140

Flink 内部原理之数据流容错

编程算法大数据分布式 apache kafka

Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下，程序的状态也将最终反映每条记录来自数据流严格一次exactly once。请注意，有一个开关可以降级为保证至少一次(least once)（如下所述）。

2019-08-07

8830

4个步骤让Flink应用程序达到生产状态

大数据文件存储分布式 uml

这篇文章阐述了 Flink 应用程序达到生产状态所必须的配置步骤。在以下部分中，我们概述了在 Flink 作业达到生产状态之前技术领导、DevOps、工程师们需要仔细考虑的重要配置参数。Flink 为大多数配置选项都提供了开箱即用的默认选项，在许多情况下它们是POC阶段（概念验证）或探索 Flink 不同 API 和抽象的很好的起点。

2019-08-07

1.6K0

分布式事务之两阶段提交(2PC)

分布式编程算法

在计算机网络以及数据库领域内，二阶段提交（Two-phase Commit）是指，为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法。通常，二阶段提交也被称为是一种协议。在分布式系统中，虽然每个节点可以知道自己的操作是成功还是失败，但却无法知道其他节点的操作是成功还是失败。当一个事务跨越多个节点时，为了保持事务的ACID特性，需要引入一个作为协调者的组件来统一协调所有节点(称作参与者)的操作结果并最终指示这些节点是否要把操作结果进行真正的提交(比如将更新后的数据写入磁盘等等)。因此，二阶段提交的算法思路可以概括为：参与者将操作成败通知协调者，再由协调者根据所有参与者的反馈情况决定各参与者是否要提交操作还是中止操作。

2019-08-07

9100

Hive Map Join 原理

编程算法缓存 mapreduce hive 分布式

首先，让我们讨论一下 Join 如何在Hive中运行。Common Join 操作如图1所示被编译为 MapReduce 任务。Common Join 任务涉及 Map 阶段和 Reduce 阶段。Mapper 从连接表中读取数据并将连接的 key 和连接的 value 键值对输出到中间文件中。Hadoop 在所谓的 shuffle 阶段对这些键值对进行排序和合并。Reducer 将排序结果作为输入，并进行实Join。Shuffle 阶段代价非常昂贵，因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。

2019-08-07

7.6K0

Exactly once 未必严格一次

分布式 apache

分布式事件流处理已逐渐成为大数据领域的热点话题。该领域主要的流处理引擎（SPE）包括 Apache Storm、Apache Flink、Heron、Apache Kafka（Kafka Streams）以及 Apache Spark（Spark Streaming）等。处理语义是围绕 SPE 最受关注，讨论最多的话题之一，其中”严格一次（Exactly-once）” 是很多引擎追求的目标之一，很多 SPE 均宣称可提供”严格一次”的处理语义。

2019-08-07

6220

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态