前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解惑:这个SPARK任务是数据倾斜了吗?

解惑:这个SPARK任务是数据倾斜了吗?

作者头像
Spark学习技巧
发布2018-12-07 15:46:08
8970
发布2018-12-07 15:46:08
举报
文章被收录于专栏:Spark学习技巧

健身前后对比

健身回来的路上,看到微信群里聊技术,一群有问了一个神奇的问题,具体可以看如下截图:

哥们给出的结论是repartition导致的数据倾斜,我给他详细的回复了说明了不是数据倾斜。那么接下来,我们就仔细分析一下原因。

为了大家更彻底的了解这块内容,文章底部浪尖也录制了一个小视频。

那哥们数是repartition导致的数据倾斜原因,是由于前三行数据输入和输出都是好几百兆,而后面的都是只有几个MB的输入,0B输出,所以下结论是数据倾斜。

浪尖纠正他是错的原因是数据倾斜往往指的是同一个stage内部:有的task数据量大,有的task数据量小,task间数据量大小差距比较大,而这个明显不是。这个是executor的页面,可以看complete task列,会发现前三行占据了几乎所有task执行,完成的task数是其余的十几二十倍。这个就是导致前三行输入输出数据量比较大的原因。

数据本地性是导致这个问题的根本原因。由于数据本地性task调度会优先调度到数据所在的executor机器,假如机器executor存在执行中的task会等待一个时间,在这个时间内task执行完,新task会直接调度到该executor上。如此往复,导致executor处理的task差距比较大。

官网给出了关于spark调度task的时候数据本地性降级的等待时间配置。

很简单,将3s设置为0s,然后结果就是task不会等待数据本性降级,就立即调度执行。

其实,根源还是kafka 创建topic的时候 partition数目没有够。单个parition的吞吐量是可以达到数万qps,但是结合业务逻辑,不同的数据输出位置,吞吐量会急剧下降,所以topic分区数,应该根据处理逻辑和落地位置,磁盘数,综合考虑设置。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浪尖聊大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档