腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
YG小书屋
专栏成员
举报
64
文章
127949
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(64)
其他(19)
es 2(18)
系统架构(7)
数据库(6)
云数据库 SQL Server(4)
hive(4)
java(3)
python(3)
编程算法(3)
sql(2)
nginx(2)
mapreduce(2)
缓存(2)
spark(2)
hadoop(2)
lua(1)
神经网络(1)
深度学习(1)
批量计算(1)
http(1)
hashmap(1)
线性回归(1)
单元测试(1)
腾讯云开发者社区(1)
es(1)
filter(1)
io(1)
ip(1)
zk(1)
工作流(1)
搜索文章
搜索
搜索
关闭
hive 插入parquet二级分区表数据倾斜优化
hive
java
缓存
http
错误: Java Heap Space。或者GC overhead limit exceeded。 原因: Parquet和ORC是列式批处理文件格式。这些格式要求在写入文件之前将批次的行(batches of rows)缓存在内存中。在执行INSERT语句时,动态分区目前的实现是:至少为每个动态分区目录打开一个文件写入器(file writer)。由于这些缓冲区是按分区维护的,因此在运行时所需的内存量随着分区数量的增加而增加。所以经常会导致mappers或reducers的OOM,具体取决于打开的文件写入器(file writer)的数量。
YG
2018-10-22
2.3K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档