腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
YG小书屋
专栏成员
举报
64
文章
128009
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(64)
其他(19)
es 2(18)
系统架构(7)
数据库(6)
云数据库 SQL Server(4)
hive(4)
java(3)
python(3)
编程算法(3)
sql(2)
nginx(2)
mapreduce(2)
缓存(2)
spark(2)
hadoop(2)
lua(1)
神经网络(1)
深度学习(1)
批量计算(1)
http(1)
hashmap(1)
线性回归(1)
单元测试(1)
腾讯云开发者社区(1)
es(1)
filter(1)
io(1)
ip(1)
zk(1)
工作流(1)
搜索文章
搜索
搜索
关闭
质量平台的一种设计方案
es
hive
编程算法
日常工作中,经常会遇到数据质量问题(完整性、准确性、一致性和及时性等)。该平台将整个数据质量处理过程形成一个闭环,从最初的规则库配置,到执行过程中质量异常告警,再到问题处理流程跟踪,到最后的解决方案沉淀等一系列的操作都在该平台完成。
YG
2020-07-28
598
0
hive 插入parquet二级分区表数据倾斜优化
hive
java
缓存
http
错误: Java Heap Space。或者GC overhead limit exceeded。 原因: Parquet和ORC是列式批处理文件格式。这些格式要求在写入文件之前将批次的行(batches of rows)缓存在内存中。在执行INSERT语句时,动态分区目前的实现是:至少为每个动态分区目录打开一个文件写入器(file writer)。由于这些缓冲区是按分区维护的,因此在运行时所需的内存量随着分区数量的增加而增加。所以经常会导致mappers或reducers的OOM,具体取决于打开的文件写入器(file writer)的数量。
YG
2018-10-22
2.3K
0
Hive数据倾斜优化:两个亿级表join
hive
【现象】 出现reduce阶段一直卡在99%的情况,猜测可能出现数据倾斜问题。 【验证猜测】 1、查看user表strmd5个数,6亿左右,做distinct之后,只有4.5亿。大约有1.5亿重复数据。 2、查看filter_log表strpicdownloadimgmd5个数,6亿左右,做distinct之后,只有5亿。大约有1亿重复数据。 3、如果一个key在user表和filter_log表中都重复出现1k次,两个表join,总数据量为1k*1k=100w,也就说这一个key的结果就有100w条。这还只是1k次,如果是10w呢?
YG
2018-10-11
5.3K
0
Hive-ES配置实例
hive
es 2
数据库
配置过程如下: 1)添加jar包 add jar file:///path/to/elasticsearch-hadoop-hive-5.2.0.jar; 2)创建一个hive-es对应表 create external table tmp.es_guo_test( imp_date string, group_code string, member_uin string, uin_flag bigint, ex_flag bigint, ower_f
YG
2018-05-23
544
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档