前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于Hive使用的一些实例

关于Hive使用的一些实例

作者头像
泰坦HW
发布2020-08-22 17:49:46
1.5K0
发布2020-08-22 17:49:46
举报
文章被收录于专栏:Titan笔记Titan笔记

行转列聚合

一、开始之前

在进行操作之前,你需要知道以下的几个函数:

1、CONCAT(string A/col, string B/col…):

返回输入字符串连接后的结果,支持任意个输入字符串。

2、CONCAT_WS(separator, str1, str2,...):

它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间。

3、COLLECT_SET(col):

函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生 array 类型字段。

二、准备数据

假设你拥有如下的用户数据

name

sex

age

Titan

18

Goodman

18

Cooper

10

Missy

10

Penny

27

三、需求分析

把相同性别的同龄人归类到一起,输出如下的结果

info

name

女-10

Missy

女-27

Penny

男-10

Cooper

男-18

Titan,Goodman

四、创建Hive表并导入数据

1、建立user_info表,将数据导入到表中

代码语言:javascript
复制
CREATE table user_info(
	name string,
    sex string,
    age string
) 
row format delimited fields terminated by "\t";

load data local inpath './users.txt' into table user_info;

2、根据需求,查询数据,使用CONCAT拼接字段,用COLLECT_SET将多行转为去重列表

代码语言:javascript
复制
SELECT
	t1.info,
	CONCAT_WS(',', COLLECT_SET(t1.name)) name
FROM
	(
	SELECT
		name, CONCAT_WS('-', sex, age) info
	FROM
		user_info ) t1
GROUP BY
	t1.info;
最后,查看输出结果

info

name

女-10

Missy

女-27

Penny

男-10

Cooper

男-18

Titan,Goodman

列转行拆分

一、开始之前

在进行操作之前,你需要知道以下的几个函数:

1、EXPLODE(col):

将 hive 一列中复杂的 array 或者 map 结构拆分成多行。

2、LATERAL VIEW

用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。

二、准备数据

假设你拥有这样的电影数据

movie

category

《疑犯追踪》

["悬疑","动作","科幻","剧情"]

《Lie to me》

["悬疑","警匪","动作","心理","剧情"]

《战狼 2》

["战争","动作","灾难"]

三、需求分析

将每个电影的分类拆分出来,展开数据

movie

category_name

《疑犯追踪》

悬疑

《疑犯追踪》

动作

《疑犯追踪》

科幻

《疑犯追踪》

剧情

《Lie to me》

悬疑

《Lie to me》

警匪

《Lie to me》

动作

《Lie to me》

心理

《Lie to me》

剧情

《战狼 2》

战争

《战狼 2》

动作

《战狼 2》

灾难

四、创建 movie_info 表并导入数据
代码语言:javascript
复制
create table movie_info(
	movie string,
	category array<string>
)
row format delimited fields terminated by "\t"
collection items terminated by ",";

hive (db_titan)> load data local inpath 'movies.txt' into table movie_info;
Loading data to table db_titan.movie_info
Table db_titan.movie_info stats: [numFiles=1, totalSize=135]
OK
Time taken: 0.556 seconds
五、根据需求,将分类列表拆分,实现列转行
代码语言:javascript
复制
select
	movie,
	category_name
from
	movie_info lateral view explode(category) table_tmp as category_name;

movie

category_name

《疑犯追踪》

悬疑

《疑犯追踪》

动作

《疑犯追踪》

科幻

《疑犯追踪》

剧情

《Lie to me》

悬疑

《Lie to me》

警匪

《Lie to me》

动作

《Lie to me》

心理

《Lie to me》

剧情

《战狼 2》

战争

《战狼 2》

动作

《战狼 2》

灾难

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020年08月20日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 行转列聚合
    • 一、开始之前
      • 二、准备数据
        • 三、需求分析
          • 四、创建Hive表并导入数据
            • 最后,查看输出结果
            • 列转行拆分
              • 一、开始之前
                • 二、准备数据
                  • 三、需求分析
                    • 四、创建 movie_info 表并导入数据
                      • 五、根据需求,将分类列表拆分,实现列转行
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档