腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
数据仓库优化
专栏成员
举报
1
文章
610
阅读量
1
订阅数
订阅专栏
申请加入专栏
全部文章(1)
sql(1)
搜索文章
搜索
搜索
关闭
高效大数据开发之数据倾斜的实践
sql
数据倾斜是在数仓开发里最常见的,且最为头疼的问题。我们也或多或少的知道数据倾斜是因为数据分配不均匀,导致部分节点要花很长时间处理大量的数据,我们也知道不管是mr还是spark,大多是在shuffle阶段出现倾斜,当然我们也知道group by和join均可能出现数据倾斜现象,而网上大多数的解决方案都建议从2方面着手处理:1.从业务方面,能否直接过滤掉导致倾斜的数据;2、从技术层面上,a.调整运行参数,b.sql优化之改用mapjoin、关联或聚合key增加随机数、将join改成union all等
用户10268982
2022-12-16
610
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档