前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >kettle学习笔记(四)——kettle输入步骤

kettle学习笔记(四)——kettle输入步骤

作者头像
HUC思梦
发布2020-09-03 15:44:34
2.8K0
发布2020-09-03 15:44:34
举报
文章被收录于专栏:HUC思梦的java专栏

一、输入步骤概述

  输入步骤主要分为以下几类:

    • 生成记录/自定义常量     • 获取系统信息     • 表输入     • 文本文件输入     • XML 文件输入     • Json输入     • 其他输入步骤

二、生成记录和自定义常量

  1.生成记录

    由于生成记录每行都是一样的数据,所以便诞生了自定义常量数据来手工模拟数据

  2.自定义常量数据

  常用于构造一些测试数据

三、获取系统信息

  获得各类系统信息,常见的包括:     • 转换开始时间。     • 关键时间点信息     • 最多十个命令行参数     • 主机名/ip/进程号/虚拟机内存等     • 上一个作业的完成情况参数

      // 固定是整个转换开始的时间

  更多系统信息细节,参考相关文档

四、表输入

  表输入是比较常见的输入方式,通过执行SELECT语句,从数据库拉取输入数据

  可以使用${}形式使用变量,如果使用?变量,要求前面步骤传过来的参数需要顺序一致

  示例表输入配置如下:

  配置变量输入:

  数据类型对应关系:

五、文本文件输入

  文本文件输入:     处理有列分隔符(限定符、逃逸字符)的文本文件。     功能选项丰富、有错误处理机制。   CSV 文件输入:     简化了文本文件输入     通过 NIO、并行、延迟转换提高性能    固定宽度:     列固定宽度的文件,不用解析字符串,性能好。

  1.文本文件输入

    先看文件这一项:

  双击文件节点进入编辑,直接点击浏览进行选择不是很推荐,

  推荐使用变量(凡是旁边一个$形状的,都可以根据提示使用变量,内置变量参考这里),单击变量,旁边会显示变量的值,可以进行参考

  可以在第一行选择文件或者目录,选择目录则可以在规则表达式进一步通过正则进行控制

  然后点击增加,增加文件到选中的文件框中,之后点击显示文件名进行文件选择结果查看

  也可以点击下方从步骤选择文件

  继续设置输入的内容页:

    // 这里目前不知何解,设置制表符\t字段会识别失败。换成分号;等就正常了

  解决方案如下:

    使用sublime先安装hexVIew插件,使用插件,点击toggle查看制表符的十六进制,然后分隔符处通过$[],例如制表符查看是09;

  则分隔符为:$[09]

  字段页通过获取字段查看分割结果:预览记录查看记录结果

  错误处理页可以进行相关设置:

  过滤页可以进行字段过滤:

    例如选择第二列(从0开始位置),含有bb的

  2.固定宽度

    要求每一行都是固定宽度,然后通过宽度截取

###  XML输入暂不赘述

###  JSON输入暂不赘述

六、其它输入 

  Excel 输入   Access 输入   配置文件输入   SAP 输入   Oracle CDC 增量输入   消息队列输入   PDF文件输入   搜索引擎结果输入

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-06-22 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、输入步骤概述
  • 二、生成记录和自定义常量
  • 三、获取系统信息
  • 四、表输入
  • 五、文本文件输入
  • 六、其它输入 
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档