前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kettle安装详细步骤和使用示例

Kettle安装详细步骤和使用示例

作者头像
bboy枫亭
发布2021-12-07 15:33:31
2.8K0
发布2021-12-07 15:33:31
举报
文章被收录于专栏:csdn_blogcsdn_blog

文章目录

1. kettle概述

Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。

2. install

  1. 准备好jdk8和mysql5.7的环境(没有的小伙伴有需要可以浏览我的其它blog有相关教程) 点击下方链接下载所需资源 pdi-ce-7.1.0.0-12.zip mysql-connector-java-5.1.48-bin.jar
  2. 解压kettle:D:\ProgramData\data-integration 找到Spoon.bat生成桌面快捷方式并加一个图标 点击图标右键打开选择属性-更改图标-浏览选择spoon.ico文件即可
在这里插入图片描述
在这里插入图片描述

解压驱动包,将mysql-connector-java-5.1.48-bin.jar这个包放进lib目录下

  1. 启动Spoon.bat 点击右上方Connect–Other Repositories–Database Repository–Get Started Display Name起名test
在这里插入图片描述
在这里插入图片描述

点击None>配置Database Connection

配置完相关项后点击测试

在这里插入图片描述
在这里插入图片描述

无误后确认back即可:

在这里插入图片描述
在这里插入图片描述

Finish–>Connect Now

出现登录页面,用户名是admin,密码也是admin,进去可以修改

在这里插入图片描述
在这里插入图片描述

connect后看右上方连接成功

在这里插入图片描述
在这里插入图片描述

这时连接数据库查看数据库kettle中自动创建了使用kettle所需要的表结构

在这里插入图片描述
在这里插入图片描述

如何添加新用户

点击工具>>资源库>>探索资源

在这里插入图片描述
在这里插入图片描述

选择【安全】>>点击加号添加用户>>填写账号密码保存

在这里插入图片描述
在这里插入图片描述

功能栏简介

在这里插入图片描述
在这里插入图片描述

3. 使用简介

➢转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶 段对数据行的各种操作。转换包括一个或多个步骤,如读取文件、过滤输 出行、数据清洗或将数据加载到数据库。 ➢转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步 骤向另一个步骤流动。在Kettle里,数据的单位是行,数据流就是数据行 从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。 ➢除了步骤和跳,转换还包括了注释,注释是一个小的文本框,可以放在转 换流程图的任何位置。注释的主要目的是使转换文档化

4. 转换操作示例

4.1 基本概念

在这里插入图片描述
在这里插入图片描述

步骤是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步 骤的参数,使得它完成相应的功能。例子显示了两个步骤,分别为“表输 入”和“Microsoft Excel 输出”。配置“表输入”步骤的参数,可以使 得这个步骤从指定的数据库中读取指定关系表的数据;配置“Microsoft Excel 输出” 步骤的参数,可以使得这个步骤向指定的路径创建一个 Excel表格,并写入数据。当这两个步骤用跳(箭头连接线)连接起来的 时候,“表输入”步骤读取的数据,通过跳,传输给了“Microsoft Excel 输出”步骤。最终,“Microsoft Excel 输出”步骤把“表输入” 所读取的数据,写入到Excel表格中。这个跳,对“表输入”而言,是个 输出跳;对“Microsoft Excel 输出”而言,是个输入跳。

在这里插入图片描述
在这里插入图片描述

➢转换的跳就是步骤之间带箭头的连线,跳定义了步骤之间进行数据传输的 单向通道。

➢从程序执行的角度看,跳实际上是两个步骤线程之间进行数据行传输的缓 存。这个缓存被称为行集,行集的大小可以在转换的设置里定义。当行集 满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集 空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行

*注意:*因为在转换里每个步骤都依赖前一个步骤获取字段值,所以当创建 新跳的时候,跳的方向是单向的,不能是双向循环的。

在这里插入图片描述
在这里插入图片描述

4.2 demo

1.点击加号->转换

在这里插入图片描述
在这里插入图片描述

2.点击保存图标,重命名该转换文件为First conversion,保存在某个指定的路径

在这里插入图片描述
在这里插入图片描述

3.在核心对象列表中选择输入>>表输入,左键点击表输入拖拽到右边画布中

➢这样,在画布中就创建了一个新步骤

➢接着选择输出>>Microsoft Excel输出,同样拖拽到右侧

在这里插入图片描述
在这里插入图片描述

4.转换里的步骤通过跳定义一个单向通道来连接。点击“表输入”步骤,Shift+鼠标左键,将箭头一直拖 到“Microsoft Excel 输出”,松开鼠标左键,即可建立两个步骤之间的跳

注:右键点击跳的箭头符号,在菜单栏上选择相关的操作设置该跳的一些属性,包括“使节点连接时效”,“删除节点连接”等

在这里插入图片描述
在这里插入图片描述

5.双击“表输入”步骤进行配置, 在弹出的配置对话框中,点击 “新建”按钮配置数据库的连 接信息。

➢配置数据库连接后,“表输入”弹框中会显示新建的数据库连接

在这里插入图片描述
在这里插入图片描述

➢在“表输入”弹框中,点击“获取SQL语句”按钮,将弹出“数据库浏览器”

在这里插入图片描述
在这里插入图片描述

➢选择之前创建好的student表,选择“student”表后,“表输入” 弹框会显示“学生”表的查询 语句

在这里插入图片描述
在这里插入图片描述

➢选择预览的记录数量,我这里设置为2,点击 “确定”后,将可以查看学生 表的数据记录信息。此时,已 完成了“表输入”步骤的配置。

在这里插入图片描述
在这里插入图片描述

6.双击“Microsoft Excel 输出” 步骤进行配置。在弹出的配置 对话框中,点击选定“文件& 工作表”进行配置

在这里插入图片描述
在这里插入图片描述

➢在“Microsoft Excel 输出”步骤 的配置对话框中,点击选定“内容” 进行配置。

➢ 点击“获取字段”按钮,获取上个 步骤输出的数据字段。

在这里插入图片描述
在这里插入图片描述

➢ 获取后,在“字段”的表格中显示了已获取的字段。这些字段将在C:\Users\18322\Documents\stu.xls文件中输出

7.点击启动按钮开始转换

在这里插入图片描述
在这里插入图片描述

看下面日志输出和步骤度量

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

打开成功生成‪的C:\Users\18322\Documents\stu.xls.xlsx这个文件可以看到限制输出的2行数据

在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-10-08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 1. kettle概述
  • 2. install
  • 3. 使用简介
  • 4. 转换操作示例
    • 4.1 基本概念
      • 4.2 demo
      相关产品与服务
      数据库
      云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档