腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

532638

阅读量

99

订阅数

时间轮在Netty、Kafka中的应用

kafka linux java 编程算法

时间轮是一个高性能、低消耗的数据结构，它适合用非准实时，延迟的短平快任务，例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。

大数据真好玩

2022-12-05

1.1K0

Kafka集群新增节点后数据如何重分配

数据迁移 kafka javascript linux

分区重新分配工具可用于在代理之间移动分区。理想的分区分配将确保所有代理之间的数据负载和分区大小均匀。分区重新分配工具没有能力自动研究Kafka群集中的数据分布，并四处移动分区以实现均匀的负载分布。因此，必须弄清楚应该移动哪些主题或分区。

大数据真好玩

2022-03-28

1.6K0

保姆级超详细教程：DolphinScheduler单机(本地)部署及软件运行测试

bash bash 指令 java linux 云数据库 SQL Server

下载最新版本的后端安装包至服务器部署目录，比如创建 /opt/dolphinscheduler 做为安装部署目录，下载地址：https://dlcdn.apache.org/dolphinscheduler/1.3.8/apache-dolphinscheduler-1.3.8-src.tar.gz，下载后上传 tar 包到该目录中

大数据真好玩

2021-12-02

4K0

SparkSQL并行执行多个Job的探索

spark sql 数据库编程算法 linux

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

大数据真好玩

2021-11-16

1.4K0

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

大数据真好玩

2021-11-05

2K0

调度系统Apache DolphinScheduler介绍和设计原理

linux 任务调度 apache github kubernetes

大数据任务调度作为大数据建设中的核心基础设施。Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

大数据真好玩

2021-09-18

6.1K0

【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同？

mapreduce spark 大数据数据结构 linux

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。

大数据真好玩

2021-01-26

7790

【大数据哔哔集20210113】Hive的动态分区和静态分区

linux hive sql node.js xml

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。详细来说，静态分区的列实在编译时期，通过用户传递来决定的；动态分区只有在SQL执行时才能决定。不难看出，Hive分区主要是以缩小数据查询范围，提高查询速度和性能的。

大数据真好玩

2021-01-21

1.2K0

提交Spark作业 | 科学设定spark-submit参数

关于spark-submit的执行过程，读Spark Core的源码能够获得一个大致的印象。

大数据真好玩

2020-11-03

1.6K0

Flink源码解读系列 | 任务提交流程

数据结构 rpc linux flink 大数据

Flink在1.10版本对整个作业提交流程有了较大改动，详情请见FLIP-73。本文基于1.10对作业提交的关键流程进行分析，不深究。入口：依旧是main函数最后env.execute();

大数据真好玩

2020-09-22

8390

Flink 源码解读系列 | Flink的Job启动Driver端

数据结构 linux 编程算法 node.js rpc

整个Flink的Job启动是通过在Driver端通过用户的Envirement的execute()方法将用户的算子转化成StreamGraph

大数据真好玩

2020-09-07

6020

MapReduce Shuffle 和 Spark Shuffle

spark mapreduce linux 数据结构

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。

大数据真好玩

2020-06-28

2.5K0

万字精美图文 | JVM学习面试大总结

jvm java 编程算法 linux

本JVM系列属于本人学习过程当中总结的一些知识点，目的是想让读者更快地掌握JVM相关的知识要点，难免会有所侧重，若想要更加系统更加详细的学习JVM知识，还是需要去阅读专业的书籍和文档。

大数据真好玩

2020-02-19

3060

这个面试问题很难么 | 如何处理大数据中的数据倾斜

spark linux mapreduce hadoop 大数据

数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

大数据真好玩

2019-12-03

8010

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态