首页
学习
活动
专区
工具
TVP
发布

Jed的技术阶梯

专栏成员
220
文章
384105
阅读量
48
订阅数
Apache Kylin-2.6安装部署
构建过程是一个MapReduce任务,比较耗时,构建之前确保MapReduce History Server是启动的,否则会报错
CoderJed
2021-04-13
1K1
012.DolphinScheduler案例实战
需求是,使用spark程序读用户表,统计用户个数,保存到结果表user_count:
CoderJed
2021-02-04
2K0
004.CM大数据平台实践之常用组件安装
每安装完一个组件之后,CM很能会提示某些过期配置需要重启,那么重启服务即可,最终的集群状态如下:
CoderJed
2020-06-16
3330
[hadoop-2.9.2] Capacity Scheduler
Capacity Scheduler 为支持多租户在共享集群上运行程序,为最大程度地提高应用程序的吞吐量,为实现集群的高利用率而生。
CoderJed
2019-05-17
1.2K0
[hadoop-2.9.2] Fair Scheduler
Fair Scheduler会在所有运行的作业之间动态地平衡资源,第一个(大)作业启动时,它是唯一运行的作业,因而可以获得集群中的全部资源,当第二个(小)作业启动时,它可以分配到集群的一半资源,这样每个作业都能公平共享资源。
CoderJed
2019-05-15
1.6K1
Spark on Yarn资源配置
工作期间,我提交spark任务到yarn上,发现指定的资源(使用内存大小。使用core的个数)总是与yarn的UI页面显示的资源使用量不一致,写本文说明一下这个问题,以及介绍一下spark on yarn的资源配置。
CoderJed
2019-05-15
2.2K0
Spark性能调优04-数据倾斜调优
数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条数据,但是个别key却对应了100万条数据,那么大部分task可能就只会分配到10条数据,然后1秒钟就运行完了;但是个别task可能分配到了100万数据,要运行一两个小时。因此,整个Spark作业的运行进度是由运行时间最长的那个task决定的。
CoderJed
2018-09-13
1.4K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档