前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >kettle 教程(一):简介及入门「建议收藏」

kettle 教程(一):简介及入门「建议收藏」

作者头像
全栈程序员站长
发布2022-08-25 10:44:20
1.7K0
发布2022-08-25 10:44:20
举报

大家好,又见面了,我是你们的朋友全栈君。

介绍

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。

kettle 的官网是 https://community.hitachivantara.com/docs/DOC-1009855,github 地址是 https://github.com/pentaho/pentaho-kettle

安装

这边以 windows 下的配置为例,linux 下配置类似。

jdk 安装及配置环境变量

由于 kettle 是基于 java 的,因此需要安装 java 环境,并配置 JAVA_HOME 环境变量。

建议安装 JDK1.8 及以上,7.0以后版本的 kettle 不支持低版本 JDK。

下载 kettle

官网 下载 kettle ,解压到本地即可。

下载相应的数据库驱动

由于 kettle 需要连接数据库,因此需要下载对应的数据库驱动。

例如 MySQL 数据库需要下载 mysql-connector-java.jar,oracle 数据库需要下载 ojdbc.jar。下载完成后,将 jar 放入 kettle 解压后路径的 lib 文件夹中即可。

注意:本文基于 pdi-ce-7.0.0.0-25 版本进行介绍,低版本可能有区别。

启动

双击 Spoon.bat 就能启动 kettle 。

转换

转换包括一个或多个步骤,步骤之间通过跳(hop)来连接。跳定义了一个单向通道,允许数据从一个步骤流向另一个步骤。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。

  1. 打开 kettle,点击 文件->新建->转换。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 在左边 DB 连接处点击新建。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 根据提示配置数据库,配置完成后可以点击测试进行验证,这边以 MySQL 为例。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 在左侧找到表输入(核心对象->输入->表输入),拖到右方。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 双击右侧表输入,进行配置,选择数据源,并输入 SQL。可以点击预览进行预览数据。
1535002043389
1535002043389
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 在左侧找到插入/更新(核心对象->输出->插入/更新),拖到右方。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 按住 Shift 键,把表输入和插入/更新用线连接起来。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 双击插入/更新进行配置。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 点击运行,就可以运行这一个转换。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 运行结束后,我们可以在下方看到运行结果,其中有日志,数据预览等,我们可以看到一共读取了多少条数据,插入更新了多少数据等等。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」

这样就完成了一个最简单的转换,从一个表取数据,插入更新到另一个表。

作业

如果想要定时运行这个转换,那么就要用到作业。

  1. 新建一个作业。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 从左侧依次拖动 START 、转换、成功到右侧,并用线连接起来。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 双击 START,可以配置作业的运行间隔,这边配置了每小时运行一次。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 双击转换,选择之前新建的那个转换。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」
  1. 点击运行,就能运行这次作业,点击停止就能停止。在下方执行结果,可以看到运行的日志。
kettle 教程(一):简介及入门「建议收藏」
kettle 教程(一):简介及入门「建议收藏」

这样就完成了一个最简单的作业,每隔1小时,将源表的数据迁移到目标表。

总结

kettle 是一个非常强大的 ETL 工具,通过图形化界面的配置,可以实现数据迁移,并不用开发代码。

通过它的作业,kettle 能自动地运行转换。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/142121.html原文链接:https://javaforall.c

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022年5月1,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 安装
    • jdk 安装及配置环境变量
      • 下载 kettle
        • 下载相应的数据库驱动
        • 启动
        • 转换
        • 作业
        • 总结
        相关产品与服务
        大数据
        全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档