腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据平台TBDS
完全兼容hadoop体系的商业化、完备化和企业化大数据平台
专栏作者
举报
26
文章
145998
阅读量
130
订阅数
订阅专栏
申请加入专栏
全部文章
大数据处理套件 TBDS
hive
hadoop
hbase
大数据
云数据库 SQL Server
yarn
bash
node.js
数据库
sql
apache
bash 指令
存储
kafka
其他
java
python
单片机
oracle
ruby on rails
linux
mapreduce
专用宿主机
云数据迁移
TDSQL MySQL 版
开源
数据迁移
shell
网络安全
spark
面向对象编程
jdbc
zookeeper
https
5g
迁移
Elasticsearch Service
搜索文章
搜索
搜索
关闭
mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000
sql
hive
mapreduce
客户在用hive sql做几张表的组合分析,使用mr引擎。 因为其中有一张表超过5万个分区,数据总量超过8千亿条,因此运行过程中出现失败,报错如下所示:
mikealzhou
2019-05-18
3.2K
0
Hive万亿级表联合分析故障排查与优化过程
sql
yarn
node.js
大数据
hive
随着大数据技术日趋成熟,行业生态愈发完善,腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中,PB级海量数据已经成为常态。笔者负责大数据技术支持的某个腾讯云大数据项目,单张数据表的行数超过万亿级、数据量PB级,而且还需要对万亿级数据表做表与表的多维分析。比如本文介绍的故障排查过程,客户提交的就是 “万亿级大表 join 普通表” 的海量数据关联多维分析任务。这类任务,如果不对大数据平台进行优化,往往很容易运行失败,而且排查过程异常艰难。
mikealzhou
2019-03-10
2.9K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档