大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1402362

阅读量

321

订阅数

八股必备｜Kafka幂等性原理深入解析

批量计算缓存 kafka

在正常情况下，Producer向Broker投递消息，Broker将消息追加写到对应的流（即某一Topic的某一Partition）中，并向Producer返回ACK信号，表示确认收到。

王知无-import_bigdata

2022-04-13

2.2K0

Flink SQL流式聚合Mini-Batch优化原理浅析

批量计算 flink 打包大数据 windows

流式聚合（streaming aggregation）是我们编写实时业务逻辑时非常常见的场景，当然也比较容易出现各种各样的性能问题。Flink SQL使得用户可以通过简单的聚合函数和GROUP BY子句实现流式聚合，同时也内置了一些优化机制来解决部分case下可能遇到的瓶颈。本文对其中常用的Mini-Batch做个简要的介绍，顺便从源码看一看它的实现思路。

王知无-import_bigdata

2022-03-11

1.1K0

Flink1.14.2发布，除了log4j漏洞你还需要关注什么？

api 批量计算 sql flink java

Flink1.14.2 Release版本已经在12月16日发布，主要是修复了Log4j导致的可执行任意代码的漏洞问题，但是还有一些非常重要的功能更新。

王知无-import_bigdata

2022-01-20

1K0

在所有Spark模块中，我愿称SparkSQL为最强！

spark python hive api 批量计算

我们之前已经学习过了《我们在学习Spark的时候，到底在学习什么？》，这其中有一个关于SQL的重要模块：SparkSQL。

王知无-import_bigdata

2021-07-30

1.7K0

Kafka 为了避免 Full GC，竟然还在发送端设计了内存池，自己管理内存，太巧妙了

kafka 缓存批量计算

在上一篇文章中，我们讲到了 Kafka 发送消息的八个流程，并且着重讲了 Kafka 封装了一个内存结构，把每个分区的消息封装成批次，缓存到内存里。

王知无-import_bigdata

2021-05-07

9440

Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值

javascript spark 批量计算数据处理

默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次花费时间， batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的数据接收速率高于Spark从队列中移除数据的速率，也就是数据处理能力低，在设置间隔内不能完全处理当前接收速率接收的数据。如果这种情况持续过长的时间，会造成数据在内存中堆积，导致Receiver所在Executor内存溢出等问题（如果设置StorageLevel包含disk, 则内存存放不下的数据会溢写至disk, 加大延迟）。Spark 1.5以前版本，用户如果要限制Receiver的数据接收速率，可以通过设置静态配制参数“spark.streaming.receiver.maxRate ”的值来实现，此举虽然可以通过限制接收速率，来适配当前的处理能力，防止内存溢出，但也会引入其它问题。比如：producer数据生产高于maxRate，当前集群处理能力也高于maxRate，这就会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力，Spark Streaming 从v1.5开始引入反压机制（back-pressure）,通过动态控制数据接收速率来适配集群数据处理能力。

王知无-import_bigdata

2020-11-24

7500

Spark Streaming官方编程指南

spark linux 文件存储编程算法批量计算

Spark Streaming（下称streaming）是Spark core的拓展，一个易扩展、高吞吐、高容错的流式数据处理系统。

王知无-import_bigdata

2020-06-11

7520

SparkSQL内核解析之逻辑计划

批量计算 express sql 编程算法

LogicalPlan的父类QueryPlan主要分为六个模块： – 输入输出涉及QueryPlan内属性相关的输入输出 – 基本属性 QueryPlan内的基本属性 – 字符串主要用于打印QueryPlan的树形结构信息 – 规范化类似Expression中的规范化 – 表达式操作 – 约束本质上也是数据过滤条件的一种，同样是表达式类型。通过显式的过滤条件推导约束

王知无-import_bigdata

2020-06-04

2.1K0

Apache Flink在小米的发展和应用

大数据文件存储 spark 批量计算 java

场景描述：本文由小米的王加胜同学分享，文章介绍了 Apache Flink 在小米的发展，从 Spark Streaming 迁移到 Flink ，在调度计算与调度数据、Mini batch 与 streaming、数据序列化等方面对比了 Spark Streaming 和 Flink 的一些区别。

王知无-import_bigdata

2019-11-11

9850

Flink 网络传输优化技术

大数据文件存储 java 批量计算 javascript

作为工业级的流计算框架，Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据，所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题。此外，Flink 的数据传输还需要支持框架本身的特性，例如反压和用于测量延迟的 latency marker。在社区不断的迭代中，Flink 逐渐积累了一套值得研究的网络栈（Network Stack），本文将详细介绍 Flink Network Stack 的实现细节以及关键的优化技术。

王知无-import_bigdata

2019-08-13

2K0

使用Flink实现索引数据到Elasticsearch

Elasticsearch Service processing http 批量计算

使用Flink处理数据时，可以基于Flink提供的批式处理（Batch Processing）和流式处理（Streaming Processing）API来实现，分别能够满足不同场景下应用数据的处理。这两种模式下，输入处理都被抽象为Source Operator，包含对应输入数据的处理逻辑；输出处理都被抽象为Sink Operator，包含了对应输出数据的处理逻辑。这里，我们只关注输出的Sink Operator实现。

王知无-import_bigdata

2019-08-02

1.6K0

万字长文干货 | Kafka 事务性之幂等性实现

kafka 大数据缓存批量计算

Apache Kafka 从 0.11.0 开始，支持了一个非常大的 feature，就是对事务性的支持，在 Kafka 中关于事务性，是有三种层面上的含义：一是幂等性的支持；二是事务性的支持；三是 Kafka Streams 的 exactly once 的实现，关于 Kafka 事务性系列的文章我们只重点关注前两种层面上的事务性，与 Kafka Streams 相关的内容暂时不做讨论。社区从开始讨论事务性，前后持续近半年时间，相关的设计文档有六十几页（参考 Exactly Once Delivery and Transactional Messaging in Kafka）。事务性这部分的实现也是非常复杂的，之前 Producer 端的代码实现其实是非常简单的，增加事务性的逻辑之后，这部分代码复杂度提高了很多，本篇及后面几篇关于事务性的文章会以 2.0.0 版的代码实现为例，对这部分做了一下分析：

王知无-import_bigdata

2019-05-21

4.9K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态