首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

kettle学习笔记(四)——kettle输入步骤

一、输入步骤概述   输入步骤主要分为以下几类:     • 生成记录/自定义常量     • 获取系统信息     • 输入     • 文本文件输入     • XML 文件输入     • Json...更多系统信息细节,参考相关文档 四、输入   输入是比较常见的输入方式,通过执行SELECT语句,从数据库拉取输入数据   可以使用${}形式使用变量,如果使用?...变量,要求前面步骤传过来的参数需要顺序一致   示例输入配置如下: ? ?   配置变量输入: ?   数据类型对应关系: ? 五、文本文件输入 ?   ...2.固定宽度     要求每一行都是固定宽度,然后通过宽度截取 ###  XML输入暂不赘述 ###  JSON输入暂不赘述 六、其它输入    Excel 输入   Access 输入   配置文件输入...  SAP 输入   Oracle CDC 增量输入   消息队列输入   PDF文件输入   搜索引擎结果输入

2.3K20

kettle输入组件

1、kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。 2、CSV文件是一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。 ?...3、文本文件输入,提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。 首先要获取到要抽取的文本文件哦。 ? 可以选择自己的分隔符哦! ? 获取字段,如下所示: ?...获取到Excel输入的字段,可以手动调整字段类型。 ? 5、多文件合并,数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。所以合并数据也是开发中非常常见的操作。 ?...9、Kettle输入,这里,以Mysql为例,将mysql的jar包放入到\pdi-ce-8.2.0.0-342\data-integration\lib目录下面。   ...Kettle输入,使用如下所示: ?

1.3K20
您找到你想要的搜索结果了吗?
是的
没有找到

Kettle使用_23 Excel表格输入ODS POI

Kettle使用_23 Excel表格输入ODS POI 大家好,我是架构君,一个会写代码吟诗的架构师。...今天说一说Kettle使用_23 Excel表格输入ODS POI,希望能够帮助大家进步!!!                                        ...Kettle使用_23 Excel表格输入ODS POI 需求:通过Kettle实现对Open Office ODS、Excel 97-2003、Apache POI、Excel 2007 XLSX等表格格式的解析...Previous work: 这里的数据是Excel97-2003格式(xls),内容见下: Step1:新建个转换 Step2:拖个Excel输入组件,该组件位于转换的输入分类下。...Excel引擎: Excel 输入配置: 配置工作: 配置字段: Step4:配置个空操作(Dummy)作为输出以便检查正确性。 Step5:保存并运行验证 完整流程示意:

53820

Kettle构建Hadoop ETL实践(九):事实技术

目录 一、事实概述 二、周期快照 1. 修改数据仓库模式 2. 创建快照表数据装载Kettle转换 三、累计快照 1. 修改数据库模式 2. 修改增量抽取销售订单Kettle转换 3....修改定期装载销售订单事实Kettle转换 4. 修改定期装载Kettle作业 5. 测试 四、无事实的事实 1. 建立新产品发布的无事实事实 2. 初始装载无事实事实 3....修改定期装载Kettle作业 4. 测试定期装载作业 五、迟到的事实 1. 修改数据仓库模式 2. 修改定期装载Kettle转换 3. 修改装载月销售周期快照事实的作业 4....图9-12 初始装载无事实事实的转换 “日期维度”输入步骤中的SQL查询日期维度的代理键和日期值: select date_sk, dt from dw.date_dim “产品维度”输入步骤中的...在一些场景下,如维度数据和事实数据能同时准备好,先使用“输入”步骤获取每个业务键最后一个版本的维度数据,然后再用“流查询”步骤把“输入”步骤的结果作为输入,是查询大型维度的最快方式。

5.8K10

Kettle构建Hadoop ETL实践(八-2):维度技术

图8-21 处理树展开的转换 “输入”查询tree,将数据输出到“Closure generator”步骤。...图8-27 装载新的转换 “输入”步骤执行查询,“ORC output”将查询结果上传到新所在HDFS目录。...图8-31 初始装载增加了邮编维度的销售订单事实的转换 “输入”步骤中的SQL查询如下,注意要去掉结尾的分号。...图8-36 初始装载分段维度的三个转换 “装载年份维度”中的“输入”步骤中SQL语句如下,查询日期维度中的年份。...“装载年度销售事实”、“装载年度客户销售分段事实”两个转换都只包含“输入”和“Hadoop file output”两个步骤,区别只是SQL查询语句和输出的HDFS文件不同。

2.2K30

Kettle构建Hadoop ETL实践(八-1):维度技术

修改Sqoop作业项 由于增加了数据列,定期装载Kettle作业中,装载客户维度和销售订单的转换需要做相应的修改。...“字段”标签 输入如表8-1所示。...修改Kettle定过期装载作业 (1)修改增量抽取sales_order的Kettle转换 由于增加了数据列,定期装载Kettle作业中,装载销售订单过渡区和销售订单事实的转换需要做相应的修改...这里直接用SQL进行连接,而不要使用Kettle中的“数据库连接步骤”。“数据库连接”步骤会对每一行输入执行一次查询,在这个场景性能极差。...Kettle转换中的步骤是并行的,如果输入步骤中调用的是输出步骤中的对象,则不会得到想要的结果。

3.3K30

Kettle教程一:Kettle简介和Kettle的部署安装

3、kettle的核心组件 4、Kettle的概念模型 Kettle的执行分为两个层次:Job(作业)和Transformation(转换)。...developer/article/1774160 配置环境变量,右击【我的电脑】---【属性】-----【高级】---【环境变量】 选择【新建系统变量】--弹出“新建系统变量”对话框,在“变量名”文本框输入...“JAVA_HOME”,在“变量值”文本框输入JDK的安装路径(也就是步骤5的文件夹路径),单击“确定”按钮 在“系统变量”选项区域中查看PATH变量,如果不存在,则新建变量 PATH,否则选中该变量,...在DOS命令行窗口输入“JAVAC”,输出帮助信息即为配置正确。 3、需准备的其他东西:数据库驱动,如将驱动放在kettle根目录的bin文件夹下面即可。...4、打开kettle只需要运行spoon.bat,即可打开spoon图形工具: 5、Kettle目录文件介绍 三 常见的kettle报错 1、打开kettle后一闪而过就没了 可能有如下原因:

59.3K66

kettle 性能优化_kettle过滤记录

本章主要是介绍Kettle的性能优化及效率提升。...一、Kettle调优 1、 调整JVM大小进行性能优化 修改Kettle定时任务中的Kitchen或Pan或Spoon脚本: 修改脚本代码片段 set OPT=-Xmx512m -cp %CLASSPATH...样例:OPT=-Xmx1024m -Xms512m 2、 调整提交(Commit)记录数大小进行优化 如修改RotKang_Test01中的“输出”组件中的“提交记录数量”参数进行优化,Kettle...7、延迟转化 很多字段在读入到最后输出,实际上都没有被操作过,开启延迟转化可以让kettle在必要的时候再进行转化。这里的转化是指从二进制到字符串之间的转化,在输入和输出都是文本的时候更为明显。...尽量缩小输入的数据集的大小(增量更新也是为了这个目的); (13). 尽量使用数据库原生的方式装载文本文件(Oracle的sqlloader, mysql的bulk loader步骤); (14).

2.6K20

Kettle与Hadoop(一)Kettle简介

步骤 步骤是转换的基本组成部分,它以图标的方式图形化地展现,这里显示了两个步骤,“输入”和“文本文件输出”。一个步骤有几个关键特性: 步骤需要有一个名字,这个名字在转换范围内唯一。...参见“彻底搞清 Kettle 数据分发方式与多线程” 在运行时,一个线程运行一个步骤或步骤的一份拷贝,如图中“输入”步骤左上角的X4,表示4个线程执行该步骤,数据行将复制4倍。...这里显示的转换起点是“输入”步骤,因为这个步骤生成数据行。终点是“文本文件输出”步骤,因为这个步骤将数据写到文件,而且后面不再有其它节点。...“一般”类型是指所有的输入输出文件,“日志”类型是指Kettle日志文件。 读、写、输入、输出、更新、删除、拒绝的行数和转换里的错误数。...可以在“输入”步骤里执行一个查询,这个查询就以分区的方式执行:同样的一个查询会被执行五遍,每个数据分区执行一遍。在Kettle里,所有使用数据库连接的步骤都可以使用分片的特性。

2.9K21

kettle教程(1) 简单入门、kettle简单插入与更新。打开kettle

本文要点:Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标不存在该字段,则新插入该条记录。若存在,则更新。...(引用百度百科) 1、Kettle的下载与安装(在本文中使用的kettle版本为6.1.0.1-196)   kettle的最新下载地址:http://community.pentaho.com/projects...4、简单的数据插入\更新   (1)新建插入   在左边的面板中选择“核心对象”,在核心对象里面选择“输入->输入”,用鼠标拖动到右边面板。...如图所示:   双击拖过来的,可以编辑输入。   选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。   (2)通过插入\更新输出到。   ...在左边面板中选择核心对象、选择“输出->插入\更新”如图所示:   编辑插入更新:   首先:输入连接插入更新。     选中表输入,按住shift键,拖向插入更新。

2.4K10

kettle学习笔记(二)——kettle基本使用

Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行。...Encr.bat: 密码加密   转换和作业: Kettle 的 Spoon 设计器用来设计转换(Transformation)和 作业(Job)。   ...3.在左边选择输入     这里以简单的生成随机数为输入 ?   双击节点进行配置: ?    4.同理选择输出     这里选择最简单的文本输出 ?     ...选中输入节点,按住shift键,通过鼠标左键进行节点连接!   5.运行转换 ?   运行之前保存转换: ?   查看执行结果: ?   桌面上可以查看转换的结果文件: ?   ...11.连接案例     在输入中选择两个自定义常量数据,这个一般用于自己编造测试数据,在连接中选择记录集连接: ?

2.4K20

kettle学习笔记(五)——kettle输出步骤

一、概述   数据库:     • 输出     • 更新,删除,插入/更新     • 批量加载(mysql,oracle)     • 数据同步   文件:     • SQL 文件输出     ...• 文本文件输出     • XML 输出     • Excel Output/Excel Writer   其他(报表、应用) 二、数据库输出 1.输出     使用SQL的方式向数据库插入数据...一个测试的输出如下: ?   ...如果选择分区,需要选择Date字段进行分区,并且需要手动创建(例如按月分区,有201804 201805两个月,则需要创建tb_201804 tb_201805两个) 2.返回自增主键     输出的配置如下...3.数据库字段映射     前面步骤可以后后面输出进行字段映射匹配:     输出配置如下: ?

2.7K30

kettle调度监控平台(kettle-scheduler)开源

背景 Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。...项目源码:GitHub – zhaxiaodong9860/kettle-scheduler: 一款简单易用的Kettle调度监控平台,专门用来调度和监控由kettle客户端创建的job和transformation...(不要忘了给个star哦) 发布版本:百度网盘 请输入提取码 提取码 提取码: 52r8 kettle8.0工具下载地址:点击下载 部署 1.基础环境 操作系统:windows(linux...# Kettle Properties #绝对路径,用于初始化kettle环境变量(.kettle/kettle.properties所在路径),指向kettle根目录(例如 D:\data-integration...) kettle.home=D:\\data-integration #绝对路径kettle下plugins文件 kettle.plugin=E:\\zhaxiaodong\\apache-tomcat

7.2K150
领券