前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hive补全连续或非连续空值数据sql

hive补全连续或非连续空值数据sql

作者头像
chimchim
发布2023-10-17 08:49:13
3720
发布2023-10-17 08:49:13
举报
文章被收录于专栏:chimchim要努力变强啊

一、背景

爬虫或业务场景运行中经常会出现丢数据的情况,可能随机丢一分钟,或者丢几十分钟,完全没有规律,如果想用上一个有效值来补全的话单纯用lag函数无法实现

二、测试数据准备

代码语言:javascript
复制
create table test(
group_id string,
times bigint,
cnt bigint
)comment '测试'
stored as textfile;



insert into test values('a',1,null);
insert into test values('a',2,10);
insert into test values('a',3,20);
insert into test values('a',4,null);
insert into test values('a',5,null);
insert into test values('a',6,30);

三、实现 

代码语言:javascript
复制
select
     t1.group_id
    ,t1.times
    ,t1.cnt        as ori_cnt  --原始值
    ,nvl(t2.cnt,0) as cnt      --补全后值
from (
    select
         group_id
        ,times
        ,cnt
        ,row_number() over(distribute by group_id,(data_rank-col_rank) sort by times) as rank1
    from (
        select
             group_id
            ,times
            ,cnt
            ,row_number() over(distribute by group_id sort by times) as data_rank
            ,row_number() over(distribute by group_id sort by if(cnt is null,0,1),times) as col_rank
        from test
    ) t
) t1
left join test t2 
    on  t1.group_id=t2.group_id 
    and if(t1.cnt is null,(t1.times-t1.rank1),t1.times)=t2.times;

可以看到为空的数据都以补全了,首条记录置为0 

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景
  • 二、测试数据准备
  • 三、实现 
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档