Jed的技术阶梯-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Jed的技术阶梯

专栏成员

220

文章

384105

阅读量

48

订阅数

Apache Kylin-2.6安装部署

hive hbase TDSQL MySQL 版 yarn 大数据

构建过程是一个MapReduce任务，比较耗时，构建之前确保MapReduce History Server是启动的，否则会报错

2021-04-13

1K1

012.DolphinScheduler案例实战

yarn node.js linux 大数据

需求是，使用spark程序读用户表，统计用户个数，保存到结果表user_count：

2021-02-04

2K0

004.CM大数据平台实践之常用组件安装

yarn node.js spark hive

每安装完一个组件之后，CM很能会提示某些过期配置需要重启，那么重启服务即可，最终的集群状态如下：

2020-06-16

3330

[hadoop-2.9.2] Capacity Scheduler

yarn node.js xml 网站

Capacity Scheduler 为支持多租户在共享集群上运行程序，为最大程度地提高应用程序的吞吐量，为实现集群的高利用率而生。

2019-05-17

1.2K0

[hadoop-2.9.2] Fair Scheduler

actionscript xml yarn node.js

Fair Scheduler会在所有运行的作业之间动态地平衡资源，第一个（大）作业启动时，它是唯一运行的作业，因而可以获得集群中的全部资源，当第二个（小）作业启动时，它可以分配到集群的一半资源，这样每个作业都能公平共享资源。

2019-05-15

1.6K1

Spark on Yarn资源配置

spark yarn node.js xml

工作期间，我提交spark任务到yarn上，发现指定的资源（使用内存大小。使用core的个数）总是与yarn的UI页面显示的资源使用量不一致，写本文说明一下这个问题，以及介绍一下spark on yarn的资源配置。

2019-05-15

2.2K0

Spark性能调优04-数据倾斜调优

spark yarn sql hive java

数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。

2018-09-13

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态