前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark两个rdd join发生数据倾斜的典型情况

Spark两个rdd join发生数据倾斜的典型情况

作者头像
runzhliu
发布2020-08-06 10:12:35
3720
发布2020-08-06 10:12:35
举报
文章被收录于专栏:容器计算容器计算

有两个RDD,分别是RDDA[Ka, Va] 和 RDDB[Kb, Vb],数据量都比较大,在做join操作的时候,可以看出,shuffle read 有严重的数据倾斜现象,导致拖慢了整个 job 的速度:

在这里插入图片描述
在这里插入图片描述

其实从上述问题中,可以看出来,index=0 的 task 必然有问题,如果不熟悉自己的数据分布的话,很容易误以为自己的数据分布是均匀的,所以建议打印出来前十个 key 出来看看。

否则就可能出现必须加大 executor 的内存量,不然某个 task 所在的 executor 有可能因为数据太多,内存撑爆导致 OOM,加大了内存,又导致内存浪费,所以正确的做法,是先了解自己数据的基本面,再去写业务代码的逻辑。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-02-03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档