腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏作者

270

文章

583644

阅读量

53

订阅数

深入理解 Kafka Connect 之转换器和序列化

文件存储 json kafka 数据结构存储

Kafka Connect 是 Apache Kafka 的一部分，提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说，只需要配置 JSON 文件就可以使用。Kafka 为一些常见数据存储的提供了 Connector，比如，JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说，Kafka Connect 提供了丰富的 API，如果有必要还可以开发其他 Connector。除此之外，还提供了用于配置和管理 Connector 的 REST API。

2021-12-27

2.9K0

Flink中可查询状态是如何工作的

数据结构 flink 大数据存储

QueryableStates 允许用户对流的内部状态进行实时查询，而无需将结果存储到任何外部存储中。这制造了许多有趣的可能，因为我们不再需要等待系统写入外部存储（这一直是此类系统的主要瓶颈之一）。甚至可能没有任何类型的数据库能让用户的应用程序直接查询流，这将使应用程序更快、更便宜。这可能不适用于所有用例，但如果您的 Pipeline 必须维护内部状态（可能是进行一些聚合），则最好使状态可用于查询。

2021-06-29

2.3K0

Presto 核心数据结构：Slice、Page、Block

编程算法文件存储 utf8 数据结构

在 Presto 中，我们需要了解一些非常重要的数据结构，例如，Slice，Block 以及 Page，下面将介绍这些数据结构。

2020-07-06

2.5K0

Redis 如何使用HyperLogLog

云数据库 Redis 数据结构缓存

Redis 在 2.8.9 版本添加了 HyperLogLog 数据结构，用来做基数统计，其优点是在输入元素的数量非常大时，计算基数所需的空间比较小并且一般比较恒定。

2019-12-02

7230

Spark 性能调优之Shuffle调优

bash bash 指令 spark 数据结构

大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对 shuffle 过程进行调优。但是也必须提醒大家的是，影响一个 Spark 作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle 调优只能在整个 Spark 的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解 shuffle 的原理，以及相关参数的说明，同时给出各个参数的调优建议。

2019-08-08

1.1K0

Roaring Bitmap更好的位图压缩算法

编程算法 apache 存储数据结构文件存储

Bitsets（也称为Bitmaps）通常用作快速数据结构。不幸的是，他们可能会占用太多内存。为了降低内存的使用，我们经常会使用压缩的位图。

2019-08-07

6.1K0

Flink 状态管理和容错机制介绍

大数据数据处理数据结构 hbase TDSQL MySQL 版

计算任务的结果不仅仅依赖于输入，还依赖于它的当前状态，其实大多数的计算都是有状态的计算。比如wordcount,给一些word,其计算它的count,这是一个很常见的业务场景。count做为输出，在计算的过程中要不断的把输入累加到count上去，那么count就是一个state。

2019-08-07

7410

Java 堆内内存与堆外内存

java 文件存储数据结构

一般情况下，Java 中分配的非空对象都是由 Java 虚拟机的垃圾收集器管理的，也称为堆内内存（on-heap memory）。虚拟机会定期对垃圾内存进行回收，在某些特定的时间点，它会进行一次彻底的回收（full gc）。彻底回收时，垃圾收集器会对所有分配的堆内内存进行完整的扫描，这意味着一个重要的事实——这样一次垃圾收集对 Java 应用造成的影响，跟堆的大小是成正比的。过大的堆会影响 Java 应用的性能。

2019-08-07

4.2K0

Spark 性能调优之开发调优

spark 文件存储数据库大数据数据结构

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

2019-08-07

9430

案例-马蜂窝实时计算平台演进之路

spark 云计算数据结构编程算法

MES 是马蜂窝统一实时计算平台，为各条业务线提供稳定、高效的实时数据计算和查询服务。在整体设计方面，MES 借鉴了 Lambda 架构的思想。本篇文章，我们将从四个方面了解 MES：

2019-08-07

7430

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态