前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >kettle的转换组件

kettle的转换组件

作者头像
别先生
发布2020-02-23 14:26:50
1.9K0
发布2020-02-23 14:26:50
举报
文章被收录于专栏:别先生别先生

1、转换是转换里面的第四个分类。转换属于ETL的T,T就是Transform清洗、转换。ETL三个部分中,T花费时间最长,是一般情况下这部分工作量是整个ETL的2/3。

2、Concat fields,就是多个字段连接起来形成一个新的字段。

3、 值映射,就是把字段的一个值映射成其他的值。在数据质量规范上使用非常多,比如很多系统对应性别gender字段的定义不同。

4、增加常量就是在本身的数据流里面添加一列数据,该列的数据都是相同的值。

5、增加序列,是给数据流添加一个序列字段。

6、字段选择,是从数据流中选择字段、改变名称、修改数据类型。

可以选择要移除的字段。

可以选择要改变的元数据信息。

7、计算器是一个函数集合来创建新的字段,还可以设置字段是否移除(临时字段)。

8、剪切字符串,是指定输入流字段裁剪的位置剪切出新的字段。

9、字符串替换,是指定搜索内容和替换内容,如果输入流的字段匹配上搜索内容就进行替换生成新字段。

10、字符串操作是去除字符串两端的空格和大小写切换,并生成新的字段。

11、去除重复记录,是去除数据流里面相同的数据行。注意:必须先对数据流进行排序!

12、排序记录,是按照指定的字段的升序或降序对数据流排序。

13、唯一行(哈希值)就是删除数据流重复的行。注意:唯一行(哈希值)和(排序记录+去除重复记录)效果一样的,但是实现的原理不同!

  唯一行(哈希值)执行的效率会高一些!唯一行哈希值是根据哈希值进行比较的,而去除重复记录是比较相邻两行数据是否一致进行比较的。

14、拆分字段是把字段按照分隔符拆分成两个或多个字段。注意:拆分字段后,原字段就不存在于数据流中!

15、列拆分为多行就是把指定分隔符的字段进行拆分为多行。

16、列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据。去除一些原来的列名,把一列数据变为字段。

  注意:列转行之前数据流必须进行排序!必须使用排序记录图元哦!

17、行转列,就是把数据字段的字段名转换为一列,把数据行变为数据列。

18、行扁平化就是把同一组的多行数据合并成为一行。注意:只有数据流的同类数据数据行记录一致的情况才可使用!数据流必须进行排序,否则结果会不正确!

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-02-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档