YG小书屋-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

YG小书屋

专栏成员

64

文章

128009

阅读量

28

订阅数

质量平台的一种设计方案

es hive 编程算法

日常工作中，经常会遇到数据质量问题（完整性、准确性、一致性和及时性等）。该平台将整个数据质量处理过程形成一个闭环，从最初的规则库配置，到执行过程中质量异常告警，再到问题处理流程跟踪，到最后的解决方案沉淀等一系列的操作都在该平台完成。

2020-07-28

5980

hive 插入parquet二级分区表数据倾斜优化

hive java 缓存 http

错误： Java Heap Space。或者GC overhead limit exceeded。原因： Parquet和ORC是列式批处理文件格式。这些格式要求在写入文件之前将批次的行（batches of rows）缓存在内存中。在执行INSERT语句时，动态分区目前的实现是：至少为每个动态分区目录打开一个文件写入器（file writer）。由于这些缓冲区是按分区维护的，因此在运行时所需的内存量随着分区数量的增加而增加。所以经常会导致mappers或reducers的OOM，具体取决于打开的文件写入器（file writer）的数量。

2018-10-22

2.3K0

Hive数据倾斜优化：两个亿级表join

【现象】出现reduce阶段一直卡在99%的情况，猜测可能出现数据倾斜问题。【验证猜测】 1、查看user表strmd5个数，6亿左右，做distinct之后，只有4.5亿。大约有1.5亿重复数据。 2、查看filter_log表strpicdownloadimgmd5个数，6亿左右，做distinct之后，只有5亿。大约有1亿重复数据。 3、如果一个key在user表和filter_log表中都重复出现1k次，两个表join，总数据量为1k*1k=100w，也就说这一个key的结果就有100w条。这还只是1k次，如果是10w呢？

2018-10-11

5.3K0

Hive-ES配置实例

hive es 2 数据库

配置过程如下： 1）添加jar包 add jar file:///path/to/elasticsearch-hadoop-hive-5.2.0.jar; 2）创建一个hive-es对应表 create external table tmp.es_guo_test( imp_date string, group_code string, member_uin string, uin_flag bigint, ex_flag bigint, ower_f

2018-05-23

5440

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态