前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >刚发现了 Hive 超赞的解析 Json 数组的函数,分享给你~

刚发现了 Hive 超赞的解析 Json 数组的函数,分享给你~

作者头像
Wu_Candy
发布2022-07-05 14:21:23
7.8K0
发布2022-07-05 14:21:23
举报
文章被收录于专栏:无量测试之道

背景

大数据的 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段,需要对 json 串数据进行转换“拍平”处理。

亲测!超好用 Hive 内置的 json 解析函数 一文中详细介绍过 get_json_object 和 json_tuple 函数如何对 json 串进行有效解析,但美中不足的是这两个函数都无法解析 json 数组,只能解析单个 json 串。

今天的分享将会介绍 Hive 中常用于 json 数组的解析函数及详细使用方法。

json数组解析:需求1

数据准备

例如:Hive中有一张 test_json 表,表中 json_data 字段的内容如下:

json_data

[{"user_id":"1","name":"小琳","age":16},{"user_id":"2","name":"小刘","age":18},{"user_id":"3","name":"小明","age":20}]

基于以上的 json_data 数据,现需要将以上 json 串数据解析为如下结构数据:

user_id

name

age

1

小琳

16

2

小刘

18

3

小明

20

在进行解析之前,先来了解下面两个函数的使用方法。

函数运用
1. explode函数

语法

代码语言:javascript
复制
explode(Array|Map)

说明

explode()函数接收一个 array 或者 map 类型的数据作为输入,然后将 array 或 map 里面的元素按照每行的形式输出。

即将 Hive 一列中复杂的 array 或者 map 结构拆分成多行显示,也被称为列转行函数。

举例

array测试sql语句:

代码语言:javascript
复制
select explode(array('user_id','name','age'));

执行结果:

map测试sql语句:

代码语言:javascript
复制
select explode(map('user_id',1,'name','rocky','age',18));

执行结果:

2. regexp_replace函数

语法

代码语言:javascript
复制
regexp_replace(str A, str B, str C)

说明

语法含义:将字符串 A 中的符合正则表达式 B 的部分替换为 C。

注意:当字符串 A 中有一些特殊字符时,在正则表达式 B 中要使用转义字符。

举例

sql语句:

代码语言:javascript
复制
select regexp_replace('hello world!', '\\ |\\!', '');

执行结果:

3. 具体函数运用

了解 explode 函数与 regexp_replace 函数的使用规则后,现在来完成上面数据准备中提出的解析需求。

第一步解析:json数组拆分成多行

sql语句:

代码语言:javascript
复制
SELECT explode(split(
     regexp_replace(
         regexp_replace(
            '[
                {"user_id":"1","name":"小琳","age":16},
                {"user_id":"2","name":"小刘","age":18},
                {"user_id":"3","name":"小明","age":20}
            ]', 
            '\\[|\\]' , ''), 将json数组两边的中括号去掉
            
              '\\}\\,\\{' , '\\}\\;\\{'), 将json数组元素之间的逗号换成分号
                
                 '\\;') 以分号作为分隔符(split函数以分号作为分隔)
          ); 

执行结果:

第二步解析:json数组key转列字段

sql语句:

代码语言:javascript
复制
select json_tuple(json, 'user_id', 'name', 'age') 
 from (select explode(split(
     regexp_replace(
      regexp_replace(
       '[
        {"user_id":"1","name":"小琳","age":16},
        {"user_id":"2","name":"小刘","age":18},
        {"user_id":"3","name":"小明","age":20}
       ]',
       '\\[|\\]' , ''), 
        '\\}\\,\\{' , '\\}\\;\\{'), 
          '\\;') 
     )as json) tmp;

执行结果:

json数组解析:需求2

数据准备

例如:

Hive中有一张 data_json 表,表中 goods_id 和 str_data 字段的内容如下:

goods_id

str_data

5,7,9

[{"source":"taobao","sold":100,"remain":1000},{"source":"jd","sold":200,"remain":2000},{"source":"meituan","sold":300,"remain":3000}]

基于以上的 goods_id 和 str_data 数据,现需要将以上 json 串数据解析为如下结构数据:

goods_id

sold

5

100

5

200

5

300

7

100

7

200

7

300

9

100

9

200

9

300

在进行解析之前,先来了解下面两个函数的使用方法。

函数运用
1. lateral view函数

说明

lateral view 用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。

lateral view 首先为原始表的每行调用 UDTF,UDTF 会把一行拆分成一行或者多行,lateral view 在把结果组合,产生一个支持别名表的虚拟表。

举例

例如:Hive 中有一张 page_ads 表,表数据结构如下:

page_name

ads_id

home_page

[1,2,3]

front_page

[2,6]

page_name 代表页面名称,ads_id 代表投放广告的所属 id,多个 id之间使用逗号分隔。

需求:统计所有广告 id 在所有页面中出现的次数。

第一步解析:拆分广告id

拆分sql语句:

代码语言:javascript
复制
SELECT page_name, ads_id 
    FROM page_ads LATERAL VIEW explode(ads_id) adTable AS adid;

拆分结果:

page_name

ads_id

home_page

1

home_page

2

home_page

3

front_page

2

front_page

6

第二步解析:聚合统计

聚合统计sql语句:

代码语言:javascript
复制
SELECT adid, count(1) 
    FROM page_ads LATERAL VIEW explode(ads_id) adTable AS adid
GROUP BY adid;

统计结果:

adid

count(1)

1

1

2

2

3

1

6

1

2. 具体函数运用

解析 data_json 表的sql语句如下:

代码语言:javascript
复制
select goods_id,get_json_object(sale_json,'$.sold') as sold
from data_json 
  LATERAL VIEW explode(split(goods_id,','))goods as goods_id 
  LATERAL VIEW explode(split(
         regexp_replace(
           regexp_replace(json_str , '\\[|\\]',''),'\\}\\,\\{','\\}\\;\\{'),'\\;')) sales as sale_json;

注意:

上述语句是 3*3 笛卡尔积的结果,所以此方式适用于数据量不是很大的情况。

执行结果如下:

goods_id

sold

5

100

5

200

5

300

7

100

7

200

7

300

9

100

9

200

9

300

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无量测试之道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • json数组解析:需求1
    • 数据准备
      • 函数运用
        • 1. explode函数
        • 2. regexp_replace函数
        • 3. 具体函数运用
    • json数组解析:需求2
      • 数据准备
        • 函数运用
          • 1. lateral view函数
          • 2. 具体函数运用
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档