前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hive 配置文件以及join中null值的处理「建议收藏」

hive 配置文件以及join中null值的处理「建议收藏」

作者头像
全栈程序员站长
发布2022-07-10 12:35:03
7670
发布2022-07-10 12:35:03
举报

大家好,又见面了,我是全栈君。

一、Hive的參数设置 1. 三种设定方式:配置文件 · 用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml · 默认配置文件:$HIVE_CONF_DIR/hive-default.xml 用户自己定义配置会覆盖默认配置。 另外,Hive也会读入Hadoop的配置,由于Hive是作为Hadoop的client启动的,Hadoop的配置文件包含 · $HADOOP_CONF_DIR/hive-site.xml · $HADOOP_CONF_DIR/hive-default.xml Hive的配置会覆盖Hadoop的配置。 配置文件的设定对本机启动的全部Hive进程都有效。 2. 命令行參数 , bin/hive -hiveconf hive.root.logger=INFO,console 这一设定对本次启动的Session(对于Server方式启动。则是全部请求的Sessions)有效。 3. 參数声明 set mapred.reduce.tasks=100; 这一设定的作用域也是Session级的 二、使用hive一些注意的地方 1. Hive使用的字符集默认是UTF-8。hive中没有转换字符编码的这样的函数 hive.exec.compress.output 这个參数, 默认是 false。 可是非常多时候貌似要单独显式设置一遍。否则会对结果做压缩的,假设你的这个文件后面还要在hadoop下直接操作, 那么就不能压缩了 2. Join中处理null值的语义差别 这里的特殊逻辑指的是,Hive的Join中,作为Joinkey的字段比較。null=null是有意义的。且返回值为true。检查下面查询: select u.uid, count(u.uid) from t_weblog l join t_user u on (l.uid = u.uid) groupby u.uid; 查询中,t_weblog表中uid为空的记录将和t_user表中uid为空的记录做连接。即l.uid = u.uid=null成立。 假设须要与标准一致的语义。我们须要改写查询手动过滤null值的情况: select u.uid, count(u.uid) from t_weblog l join t_user u on (l.uid = u.uid and l.uid is not null and u.uid is notnull) group by u.uid; 实践中,这一语义差别也是常常导致数据倾斜的原因之中的一个。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/115574.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年2月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档