前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用hive查询从hudi同步的表需要注意的问题

使用hive查询从hudi同步的表需要注意的问题

作者头像
从大数据到人工智能
发布2022-01-19 08:25:05
2.2K0
发布2022-01-19 08:25:05
举报
文章被收录于专栏:大数据-BigData

设置 hive.input.format

在hive cli或者beeline执行查询任务时,需要做如下指定:

代码语言:javascript
复制
set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;Copy

如果没有做如下指定,有可能会得到错误结果或者执行错误。例如,有100000条数据,用flink查返回正确结果,

但是在hive中,如果不做上述指定,返回了162766的结果,明显这个结果是错误的。

hive中的ro和rt表

在0.9.0版本中,在使用flink将数据写入hudi mor表并同步到hive时,hive中默认情况下会有两张表,一张是rt表,另一张是ro表。

在做count操作时,ro表可以查询到正确结果,rt表目前还不支持此操作。

在同步时候,可以设置hive_sync.skip_ro_suffix参数为true,不生成ro表。

flink写hudi表开启hive同步,隔多久能在hms中看到该表?

checkpoint interval

本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://cloud.tencent.com/developer/article/1936512

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-11-,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 设置 hive.input.format
  • hive中的ro和rt表
  • flink写hudi表开启hive同步,隔多久能在hms中看到该表?
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档