腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据平台TBDS

完全兼容hadoop体系的商业化、完备化和企业化大数据平台

专栏作者

26

文章

145998

阅读量

130

订阅数

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000

sql hive mapreduce

客户在用hive sql做几张表的组合分析，使用mr引擎。因为其中有一张表超过5万个分区，数据总量超过8千亿条，因此运行过程中出现失败，报错如下所示：

2019-05-18

3.2K0

Hive万亿级表联合分析故障排查与优化过程

sql yarn node.js 大数据 hive

随着大数据技术日趋成熟，行业生态愈发完善，腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中，PB级海量数据已经成为常态。笔者负责大数据技术支持的某个腾讯云大数据项目，单张数据表的行数超过万亿级、数据量PB级，而且还需要对万亿级数据表做表与表的多维分析。比如本文介绍的故障排查过程，客户提交的就是 “万亿级大表 join 普通表” 的海量数据关联多维分析任务。这类任务，如果不对大数据平台进行优化，往往很容易运行失败，而且排查过程异常艰难。

2019-03-10

2.9K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态