腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏作者

167

文章

193207

阅读量

42

订阅数

Kafka Streams - 抑制

kafka mapreduce 腾讯云开发者社区

在这篇文章中，我将解释Kafka Streams抑制的概念。尽管它看起来很容易理解，但还是有一些内在的问题/事情是必须要了解的。这是我上一篇博文CDC分析的延续。

大数据学习与分享

2022-12-12

1.5K0

Kafka集群消息积压问题及处理策略

通常情况下，企业中会采取轮询或者随机的方式，通过Kafka的producer向Kafka集群生产数据，来尽可能保证Kafk分区之间的数据是均匀分布的。

大数据学习与分享

2020-11-26

2.3K0

如何为Kafka集群确定合适的分区数以及分区数过多带来的弊端

通过之前的文章《Kafka分区分配策略》和《Kafka高性能揭秘》，我们了解到：Kafka高吞吐量的原因之一就是通过partition将topic中的消息保存到Kafka集群中不同的broker中。无论是Kafka的producer，还是consumer都可以并发操作topic中的partition，因此partition是Kafka并行度调优的最小单元。

大数据学习与分享

2020-11-17

1.8K0

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

spark kafka 数据库 sql hive

最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题，笔者挑选了几个相对常见的问题，分别从场景模拟/问题现象、问题分析、解决方案三个层面，来深入分析这些问题，并且提供一个解决类似问题的思路。

大数据学习与分享

2020-11-03

2.5K0

Kafka分区分配策略（Partition Assignment Strategy）

众所周知，Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统（当然，目前Kafka定位于an open-source distributed event streaming platform），由Scala和Java编写。

大数据学习与分享

2020-09-29

7.7K0

SparkStreaming和Kafka基于Direct Approach如何管理offset

kafka node.js spark zookeeper

在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比了二者的优劣势，以及针对不同的Spark、Kafka集成版本处理方式的支持：

大数据学习与分享

2020-09-14

5740

spark和kafka jar包冲突NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

spark kafka 大数据

在利用Spark和Kafka处理数据时，有时会同时在maven pom中引入Spark和Kafka的相关依赖。但是当利用Spark SQL处理数据生成的DataSet/DataFrame进行collect或者show等操作时，抛出以下异常信息：

大数据学习与分享

2020-08-31

1.3K0

如何获取流式应用程序中checkpoint的最新offset

node.js spark kafka flink 大数据

对于流式应用程序，保证应用7*24小时的稳定运行，是非常必要的。因此对于计算引擎，要求必须能够适应与应用程序逻辑本身无关的问题（比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等），具有自动容错恢复的功能。

大数据学习与分享

2020-08-10

1.3K0

不可不知的Spark调优点

linux 文件存储 jvm spark kafka

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略。

大数据学习与分享

2020-08-10

4910

解析SparkStreaming和Kafka集成的两种方式

spark kafka linux node.js

spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

大数据学习与分享

2020-08-10

5230

分布式流平台Kafka

kafka windows api node.js 编程算法

提到Kafka很多人的第一印象就是它是一个消息系统，但Kafka发展至今，它的定位已远不止于此，而是一个分布式流处理平台。对于一个流处理平台通常具有三个关键能力：

大数据学习与分享

2020-08-10

8110

Kafka中sequence IO、PageCache、SendFile的应用详解

kafka 缓存 socket编程 mapreduce

大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高呢？

大数据学习与分享

2020-08-10

7500

Kafka作为消息系统的系统补充

kafka node.js html socket编程文件存储

Apache Kafka由Scala和Java编写，基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性，但设计上又有很大区别，它不是JMS规范的实现，如Kafka允许多个消费者主动拉取数据，而在JMS中只有点对点模式消费者才会主动拉取数据。

大数据学习与分享

2020-08-10

4810

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态