文章目录 07-PDI(Kettle)源码编译8.2.0.0.R版本 1.安装PDI8.2.0.0.R的parent工程到本地 1.1配置Maven的settings.xml文件 1.2安装PDI源码依赖的...1.安装PDI8.2.0.0.R的parent工程到本地 1.1配置Maven的settings.xml文件 PDI编译过程中的很多依赖需要从Maven的远程私有仓库中下载,这个私有仓库的地址包含在PDI...提供的一个Settings.xml中,这个文件网络提供的下载地址大多不可用了,经过寻找,发现github中这个下载链接,新的地址如下。...settings.xml文件,这个文件中有PDI远程maven私有仓库的地址,需要将 将原maven的conf目录下setttings.xml备份,将kettle提供的setttings.xml放在conf...> 到settings.xml中 1.2安装PDI源码依赖的parent工程到本地仓库 PDI源码目前基于Maven构建,源码的依赖来源于其父工程pentaho-ce-jar-parent-pom,进入到
启动测试: 在E:\pdi-ce-8.2.0.0-342\data-integration\目录下双击Spoon.bat即可打开Kettle的可视化编程界面 为了便于下次使用,可以将Spoon.bat...转换负责数据的输入、转换、校验和输出等工作,kettle中使用转换完成数据ETL的全部工作,转换由多个步骤Step组成。各个步骤由跳hop链接。...在Kettle中数据的最小单位是数据行(row),数据流中流动的是缓存的行集(rowset)。...对于kettle的转换,不能定义一个执行顺序,因为所有的步骤都是并发方式执行;当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并发处理过的数据写出到输出跳,直到输出跳里不再有数据,就中止步骤的运行...作业 作业,负责定义一个完成整个工作流的控制,比如将转换的结果发送邮件给相关人员,因为转换以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是Kettle中的作业。
介绍: Kettle简介:Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。...在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它...放到kettle的lib目录下面。 4.运行spoon.bat,打开spoon图形工具 注意: 红圈处没有connect按钮,原因为资源库配置文件乱码造成。...解决方法: 打开系统盘用户目录下的repositories.xml配置文件,将乱码内容删除,并删除.spoonrc文件,再重启kettle。...6.创建数据库连接 输入连接名称、选择类型(根据自身所需选择,这里连接的是mysql数据库,如连接其他数据库,需将数据库驱动放在kettle根目录中的lib下面,然后启动数据库重启kettle)确认输入无误后点击测试
/cdh61/目录下,覆盖原来自带的core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xml、mapred-site.xml 5个文件。...在工作区左侧的树的View标签中,选择 Hadoop clusters -> 右键New Cluster,对话框中输入如图4所示的属性值。...新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图6所示的属性值。 ?...新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图8所示的属性值。 ?...新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图10所示的属性值。 ?
文章目录 05-PDI(Kettle)脚本执行 pan和kitchen实验背景 pan命令演示 创建脚本文件:transschdule.bat kitchen命令演示 定时任务中 05-PDI(Kettle...在开发完成后,需要部署到实际运行环境,在部署阶段,Spoon就很少用到了。 在部署阶段,一般需要通过命令行执行。需要将命令行输入到执行脚本中,并定时调度这个脚本。...切换到pdi的安装目录: C:\WINDOWS\system32>cd /d E:\pdi-ce-8.2.0.0-342\data-integration 执行Pan.bat命令,会提示支持的相关参数:...右键点击桌面的spoon图标,打开PDI的安装位置,打开安装目录 E:\pdi-ce-8.2.0.0-342\data-integration 2、运行Kitchen.sh文件 kitchen.bat...在Window中的过程大致为:控制面板–管理工具–任务计划程序–创建基本任务。 在Ubuntu中的过程为通过crontab命令完成调度。
图2-5 添加中文拼音输入法 点击图2-5中的“添加”按钮就可添加输入法。缺省使用“Super+空格”组合键切换输入法,Super键就是普通键盘上的Win键。...本例在GNOME桌面打开一个终端窗口执行下面的命令,即可启动spoon界面。 cd pdi-ce-8.3.0.0-371/ ....shared.xml .spoonrc文件只用于spoon程序,其余的则用于Kettle里的多个程序。...repositories.xml文件可以位于两个目录: 位于用户主目录(由Java环境变量中的user.home变量指定)的.kettle目录下。Spoon、Kitchen、Pan会读取这个文件。...但是,共享的步骤或作业项不会被自动放在画布里,需要把它们从树状列表中拖到画布里,以便在转换或作业里使用。 共享对象存储在shared.xml文件中。
Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为:Pentaho Data Integeration,简称“PDI”。...架构 Kettle是一个组件化的集成系统,包括如下几个主要部分: 1.Spoon:图形化界面工具(GUI方式),Spoon允许你通过图形界面来设计Job和Transformation,可以保存为文件或者保存在数据库中...基本概念 1.Transformation:定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比Job粒度更小一级的容器,我们将任务分解成Job,然后需要将Job分解成一个或多个Transformation...3.实践 (1)在Spoon中设计Transformation和Job 运行Transformation和Job有2种方式。 方式一:直接在Spoon中运行。...SQL就可以实现ETL 注意事项 运行Transformation或Job时,在Spoon中设置的环境变量在重启之后需要重新设置;如果是命令行参数,在终端运行时作为参数传递即可。
将CDH中Spark的库文件复制到PDI所在主机 -- 在172.16.1.126上执行 cd /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567...修改PDI自带的Spark例子 cp /root/data-integration/samples/jobs/Spark\ Submit/Spark\ submit.kjb /root/big_data.../ 在Kettle中打开/root/big_data/Spark\ submit.kjb文件,如图1所示。...保存行执行作业 日志如下: 2020/06/10 10:12:19 - Spoon - Starting job... 2020/06/10 10:12:19 - Spark submit - Start...] (result=[true]) 2020/06/10 10:12:24 - Spark submit - Job execution finished 2020/06/10 10:12:24 - Spoon
大家好,又见面了,我是你们的朋友全栈君。...7.0 可以使用如下命名直接下载 wget -c –output-document=pdi-ce-7.0.0.0-25.zip https://nchc.dl.sourceforge.net/project.../pentaho/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.zip 3,使用unzip命令对这个压缩包进行解压 unzip pdi-ce-7.0.0.0-25.zip.../data-integration/pan.sh -file=/opt/kettle-spoon/ktr/test/test1.ktr log=test1.log 6,执行job sudo /opt/kettle-spoon...(如果是job需要定时,如果我们需要执行的是一个job,则可跳过下列步骤,直接在job里设置定时参数即可) job和ktr的路径变量问题需要注意,也可以直接写绝对路径 7,配置定时任务 7.1,如果是转换文件需要定时
1、点击[8.2稳定] 2、点击[开始下载] 3、点击[打开文件夹] 4、点击[pdi-ce-9.0.0.0-423.zip] 5、点击[解压到] 6、点击[立即解压] 7、点击[pdi-ce...-9.0.0.0-423] 8、点击[data-integration] 9、点击[Spoon.bat] 10、点击[允许访问] 11、点击[转换] 12、点击[输入] 13、点击[Excel...输入] 14、点击[Excel输入] 15、点击[表格类型] 16、点击[Excel 2007 XLSX (Apache POI)] 17、点击[浏览] 18、点击[1.xlsx] 19
本次实验环境 操作系统: oel7.8 源端数据库: oracle 12.2 目标端数据库 : mariadb 5.5 迁移工具: kettle版本: pdi-ce-7.1.0.0-12 这个工具是图形化的...安装kettle 3.1 下载并安装 最新版本 pdi-ce-9.1.0.0-324 本次实验实验 pdi-ce-7.1.0.0-12 官网下载太慢了, 我就选国内的镜像了 北京理工大学: http:...kettle 3.2.1 得先配置JAVA_HOME环境变量: 直接编辑启动脚本 pdi-ce-7.1.0.0-12\data-integration\Spoon.bat 修改如下即可(第16 17...JAVA_HOME) set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_141 set PENTAHO_JAVA_HOME=%JAVA_HOME% 然后双击Spoon.bat...2021-02-18_224857.png 4.3 创建流程 我们环境就简单点, 就只要一个输入 一个输出 就够了 核心对象 --> 输入 --> 表输入 核心对象 --> 输入 --> 插入
Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。...【环境变量】 选择【新建系统变量】--弹出“新建系统变量”对话框,在“变量名”文本框输入“JAVA_HOME”,在“变量值”文本框输入JDK的安装路径(也就是步骤5的文件夹路径),单击“确定”按钮 在“...在DOS命令行窗口输入“JAVAC”,输出帮助信息即为配置正确。 3、需准备的其他东西:数据库驱动,如将驱动放在kettle根目录的bin文件夹下面即可。...,也就是双击spoon.bat后一闪就没了的问题。...3、kettle无法创建xml相关步骤,有相关步骤的.ktr文件也打不开 可能是因为路径中包含中文,将整个安装包移动到桌面或其他没有中文字符的路径下,重启Spoon.bat即可。
执行spoon.sh 在桌面中打开一个终端执行spoon.sh,如图2所示。 ? 图2 打开的spoon界面如图3所示。 ?...shared.xml .spoonrc文件只用于spoon程序,其余的则用于Kettle里的多个程序。...对任何带有“”符号的输入框都可以使用这种变量的输入方式。在运行阶段,这个变量的值就是/home/sakila/import,即在kettle.properties文件里设置的值。...repositories.xml文件可以位于两个目录: 位于用户本地(由Java环境变量中的user.home变量指定)的.kettle目录下。Spoon、Kitchen、Pan会读取这个文件。...但是,共享的步骤或作业项不会被自动放在画布里,需要把它们从树状列表中拖到画布里,以便在转换或作业里使用。 共享对象存储在shared.xml文件中。
1、Kettle的下载与安装(本文使用kettle版本为pdi-ce-7.1.0.0-12)点击下载地址官方网站 2、下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。...然后打开Spoon.bat,如图所示: 因为,运行spoon在不同的平台上运行spoon所支持的脚本: Spoon.bat:在Windows平台上运行spoon; Spoon.sh:在Linux、AppleOSX...、Solaris平台上运行Spoon。...下载地址:https://dev.mysql.com/downloads/connector/j/ 或者点击直接下载里面包含MySQL和Oracle驱动包 如下图点击直接下载 下载好后,解压该文件将文件夹中的...mysql-connector-java-5.1.46-bin.jar文件复制到kettle所安装的E:\kettle-pdi-ce-7.1.0.0-12\data-integration\lib下即可
启动方式:解压到本地,mac启动方式 /路径/pdi-ce-9.1.0.0-324/data-integration/spoon.sh ⚠️MySql数据抽取:如果使用MySql数据库下载jar https...://download.csdn.net/download/yangfeixien/13755948 放到 /路径/pdi-ce-9.1.0.0-324/data-integration/lib/ ?...举例子: 第一种:从A表->抽数据到->B表(可不同数据库) 启动kettle step 1:左侧操作区->核心对象Tab->输入->选择“表输入”->拖拽到右侧操作区 step 2:左侧操作区->核心对象...Tab->输出->选择“插入/更新”->拖拽到右侧操作区 step 3:双击“表输入”->选择数据库链接(上面有提到如何添加数据库连接)->输入查询的表SQL语句->预览按钮查看是否正确->保存 step...4:双击“插入/更新”->选择数据库链接->选择表->“用来查询的关键字”->选择类似UK的字段(据此判断插入or更新数据)->“更新字段”(表字段列:要抽取到的目标表字段;流字段列:被抽取的表字段,
转换操作示例 4.1 基本概念 4.2 demo 1. kettle概述 Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思...最终,“Microsoft Excel 输出”步骤把“表输入” 所读取的数据,写入到Excel表格中。...4.2 demo 1.点击加号->转换 2.点击保存图标,重命名该转换文件为First conversion,保存在某个指定的路径 3.在核心对象列表中选择输入>>表输入,左键点击表输入拖拽到右边画布中...,包括“使节点连接时效”,“删除节点连接”等 5.双击“表输入”步骤进行配置, 在弹出的配置对话框中,点击 “新建”按钮配置数据库的连 接信息。...➢配置数据库连接后,“表输入”弹框中会显示新建的数据库连接 ➢在“表输入”弹框中,点击“获取SQL语句”按钮,将弹出“数据库浏览器” ➢选择之前创建好的student表,选择“student”表后,
下载的最新版本的kettle是:pdi-ce-7.1.0.0-12 官方入门文档 :https://wiki.pentaho.com/display/EAI/Getting+Started 二。...kettle Spoon 安装入门 1》 安装kettle spoon kettle是使用java编写 直接是绿色版 解压即可使用 解压后的目录结构 lib目录 可以存放第三方的jar 比如 数据库的驱动包...输出 (EXCEL文件) 核心对象中 将数据转换后写入的目的地 比如插入和更新(目的表存在更新不存在插入) 删除(输入存在的记录就删除目标表对应记录) 添加一个excel输出...数据excel输出 设置 选择输出的文件保存位置 Hops节点连接 (输入和输出连一条线) 数据从哪里流到哪里 可以再源对象上 shift键 鼠标拖动 也可以在主对象树中 Hops(节点连接...首先双击转换 新建一个转换 转换中配置数据库连接 先将驱动包 丢到kettle的lib目录下 输入完成后 点击测试按钮测试一下 拖拽一个 输入 (表输入)到界面上 选择数据源的表 或者自己编写
中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 ...Integration (or Kettle) 7.1版本下载:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/pdi-ce...其他版本可以通过在下载页选择 3.安装 因Kettle是开源工具,下载的压缩包直接解压到本地路径即可。 ...4.启动 由于是WIN平台,双击 Spoon.bat: ? 启动画面: ? 启动完成: ? 三、常见问题 ? ...说明JDK版本与kettle版本不匹配(这里7.0匹配1.8的版本)
打开PDI,新建一个作业,如图1所示。 ? 2. 编辑'Oozie job executor'作业项,如图2所示。 ?...'Enable Blocking'选项将阻止转换的其余部分执行,直到选中Oozie作业完成为止。 'Polling Interval(ms)'设置间检查Oozie工作流的时间间隔。...此路径是必需的,并且必须是有效的作业属性文件。...2020/06/09 09:48:43 - Spoon - Starting job... 2020/06/09 09:48:43 - Oozie - Start of job execution 2020...executor] (result=[true]) 2020/06/09 09:51:47 - Oozie - Job execution finished 2020/06/09 09:51:47 - Spoon
将其中的core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xml、mapred-site.xml 5个文件复制到Kettle根目录下的plugins...在Spoon中创建Hadoop clusters对象 新建一个转换,在工作区左侧的树的“主对象树”标签中,选择 Hadoop clusters -> 右键New Cluster,对话框中输入如图...检查Kettle根目录下logs目录下的spoon.log文件中记录的测试文件名。测试文件用于验证用户可以在其主目录中创建、写入和删除。...从Hive抽取数据到MySQL 在Spoon中新建一个如图3-10的转换。转换中只包含“表输入”和“表输出” 两个步骤。.../hadoop-configurations/cdh61 # spark主目录 SPARK_HOME=/root/spark (4)编辑core-site.xml文件 vim /root/pdi-ce-