腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

YG小书屋

专栏作者

64

文章

123679

阅读量

28

订阅数

hive 插入parquet二级分区表数据倾斜优化

hive java 缓存 http

错误： Java Heap Space。或者GC overhead limit exceeded。原因： Parquet和ORC是列式批处理文件格式。这些格式要求在写入文件之前将批次的行（batches of rows）缓存在内存中。在执行INSERT语句时，动态分区目前的实现是：至少为每个动态分区目录打开一个文件写入器（file writer）。由于这些缓冲区是按分区维护的，因此在运行时所需的内存量随着分区数量的增加而增加。所以经常会导致mappers或reducers的OOM，具体取决于打开的文件写入器（file writer）的数量。

2018-10-22

2.3K0

node query cache 一个节点的所有shard共享一个缓存区。利用LRU算法替换缓存内容。 query cache缓存查询结果，但只缓存filter类型的查询。可通过indices.queries.cache.size设置缓存的大小。在5.1.1中移除了term query的缓存。因为term query和filter query二者查询时间相差不多。https://www.elastic.co/guide/en/elasticsearch/reference/5.1/release-not

2018-05-23

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态