专栏首页Hadoop数据仓库在Kettle里使用参照表进行数据校验(子转换实现)

在Kettle里使用参照表进行数据校验(子转换实现)

有一种参照表叫数据确认主表。性别编码就是这种参照表的例子。有的系统使用字母M、F和U,分别代表男、女、未知;有的系统使用NULL来代表未知的性别;有的系统使用Male和Female代表男、女;而有的系统则使用完全不同的编码,如0(男)、1(女)或0(未知)、1(男)、2(女),等等。还有更复杂的情况,有的系统使用C代表儿童,使用F代表父亲,M代表母亲,各种变化和组合都有可能。要把从这些来源的数据整合到一起,要有一套统一的编码规范,然后把已有的编码映射到规范的编码上。使用单一的查询表比每个系统都有一个查询表要更好,便于维护。这里要满足两个基本的需求:

  • 源系统中的每个可能的值都需要映射
  • 要映射到唯一的一组值。

基于前面说的性别的例子,需要建立下面的主表。ref_code和ref_name字段,是要获取的标准数据,src_system字段是数据来源于哪个应用或系统,src_code字段包含了这个系统里可能的值。

create table lkp_codes (  
    id int primary key,  
    ref_code varchar(1),  
    ref_name varchar(10),  
    src_system varchar(10),  
    src_code varchar(10)  
)  engine=myisam;  
  
insert into lkp_codes values(1,'M','Male','Sales','1');  
insert into lkp_codes values(2,'F','Female','Sales','2');  
insert into lkp_codes values(3,'M','Male','Web','male');  
insert into lkp_codes values(4,'F','Female','Web','female');  
insert into lkp_codes values(5,'M','Male','CRM','F');  
insert into lkp_codes values(6,'F','Female','CRM','M');  
insert into lkp_codes values(7,'U','Unknown','CRM','C');  

为了便于查询,数据是以非正规的结构来组织。但这种结构适合要求,而且容易查询,根据源系统的名称和原始的数据,就能查询到标准的三个值:M、F、U。 主转换流程的结构如下:

要给子转换步骤定义一个变量,在映射步骤“参数”标签下设置变量。在这个例子里,把值为Web的变量传递给子转换genderlookup。

子转换流程的结构如下:

在子转换里使用这个变量:

子转换里的流查询步骤非常简单:只需设置好条件,输入数据的src_code1等于参照表的src_code字段,并指定要返回的字段即可。注意这里必须要设置一个默认值,来处理NULL和未知的值。完整的流查询步骤如下:

说明:原始数据里可能会包含NULL值,但NULL并不是数据库里的一个真正的值。NULL=NULL这样的比较条件也不会成功。这就是为什么没有把对NULL值的匹配放到参照表里,以及为什么在流查询步骤里一定要设置一个默认值的原因。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Idea_01_安装与激活

    shirayner
  • CodeForces #549 Div.2 ELynyrd Skynyrd

    对于每个区间,我们从右边边界,往左边走,如果能走n-1次,那说明以右边边界为起点存在一个题目中说的子链。

    ShenduCC
  • WPA3已沦陷?解读Dragonblood Vulnerabilities

    今天早上一觉醒来,按照往常的习惯刷了一下 ZDNet,惊奇的发现了一篇名为《Dragonblood vulnerabilities disclosed in W...

    FB客服
  • Leetcode 459. 重复的子字符串

    给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。

    zhipingChen
  • [算法题] 求数组有序后相邻元素之间的最大差值

    8大经典排序排序算法中,时间复杂度最低的为桶排序,其时间复杂度为O(n),但是由于数组是long类型的,其中的数可能很大,例如假设数组中只有3个数,100128...

    CoderJed
  • [图解] 桶排序

    桶排序是一种排序的思想,其实现包括计数排序和基数排序两种,冒泡排序、选择排序、插入排序、归并排序、快速排序和堆排序都是基于比较的排序,而桶排序提出了一种新的思路...

    CoderJed
  • Random在高并发下的缺陷以及JUC对其的优化

    Random可以说是每个开发都知道,而且都用的很6的类,如果你说,你没有用过Random,也不知道Random是什么鬼,那么你也不会来到这个技术类型的社区,也看...

    java架构师
  • Java代码审计之SpEL表达式注入

    Spring Expression Language(简称 SpEL)是一种功能强大的表达式语言、用于在运行时查询和操作对象图;语法上类似于 Unified E...

    FB客服
  • Idea_02_常用配置

    (1)依次选择 Configure->Project Default ->Run Configurations

    shirayner
  • AutoRDPwn v4.8:一款功能强大的隐蔽型攻击框架

    今天给大家介绍的是一款名叫AutoRDPwn的隐蔽型攻击框架,实际上AutoRDPwn是一个PowerShell脚本,它可以实现对Windows设备的自动化攻击...

    FB客服

扫码关注云+社区

领取腾讯云代金券