前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >还不会使用大数据ETL工具Kettle,你就真的out了!

还不会使用大数据ETL工具Kettle,你就真的out了!

作者头像
大数据梦想家
发布2021-01-27 16:58:53
5.2K0
发布2021-01-27 16:58:53
举报

写在前面: 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我希望在最美的年华,做最好的自己!

最近在做一个数仓项目,其中就用到了Kettle。对于像我这样的小白来说,自然也是第一次使用。但好在熟能生巧,在快速掌握了如何使用之后,便打算单独拿一期来好好为大家科普一下什么是Kettle,以及如何简单入门~

在这里插入图片描述
在这里插入图片描述

可视化ETL工具

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load) 至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

Kettle介绍

对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI

Kettle的主要特点如下:

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装
  • Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出
  • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做

既然Kettle这么重要,那接下来让我们看看在大数据岗位中对于Kettle的掌握要求。

大数据岗位需求

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

通过对上面大数据岗位的职位需求信息可以发现,越来越多的企业要求程序员掌握Kettle这门技术

那此时看到这里的你若跟博主最初一样,心里想着我不会使用Kettle怎么办啊…别急,停止焦虑,继续认真往下看?

在这里插入图片描述
在这里插入图片描述

Kettle安装,配置

环境要求:

  • 安装、配置好JDK

1.下载Kettle(体贴的博主已经为大家准备好了)

代码语言:javascript
复制
链接:https://pan.baidu.com/s/1MxwhWmXWCUthOhhZ53HQ-Q 
提取码:eupb

2.解压Kettle

我们打开data-integration目录,双击Spoon.bat即可成功打开Kettle

在这里插入图片描述
在这里插入图片描述

然后就会看到类似这样的界面

在这里插入图片描述
在这里插入图片描述

当成功打开之后,就可以看到

在这里插入图片描述
在这里插入图片描述

既然都打开了,咱不能闲着,赶紧跟着本菌的步伐,上手下面罗列出的入门案例。

入门案例

提前声明:以下案例所需要的数据源博主均已备好并与压缩包放置网盘,需要的朋友请自取?。

Test1 csv - excel

需求:

  • 把数据从CSV文件(ketttle测试数据\用户数据源\user.csv)抽取到Excel文件

具体步骤:

1.新建一个转换

在这里插入图片描述
在这里插入图片描述

2.拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

拖拽完成后,使用Ctrl+Alt 将两个组件连接起来

在这里插入图片描述
在这里插入图片描述

3.配置CSV输入组件

在这里插入图片描述
在这里插入图片描述

点击预览数据 就可以看到数据输入的内容

在这里插入图片描述
在这里插入图片描述

4.配置Excel输出组件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.配置完毕,点击运行,保存操作记录文件,然后就可以下面的结果

在这里插入图片描述
在这里插入图片描述

6.观察输出文件

在这里插入图片描述
在这里插入图片描述

若看到上面的结果,说明大家操作成功了~

Test2 json-excel

需求:

  • 将资料\kettle测试数据\用户数据源\user.json数据文件,通过Kettle,抽取到Excel中

user.json文件中就是类似这样的数据

在这里插入图片描述
在这里插入图片描述

因为有了第一题的基础,所以下面为了节约大家的阅读时间,所以博主将只讲重点的地方。

1.拖拽出一个Json 输入组件和 Excel输出组件并连接

在这里插入图片描述
在这里插入图片描述

2.配置Json输入组件

在这里插入图片描述
在这里插入图片描述

注意:这里只有选择了输入的字段,下面预览数据才能看到数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

预览数据

在这里插入图片描述
在这里插入图片描述

3.配置Excel输出组件

在这里插入图片描述
在这里插入图片描述

4.运行

在这里插入图片描述
在这里插入图片描述

看到转换完成的日志结果,我们打开文件查看

在这里插入图片描述
在这里插入图片描述

很棒,为你们点赞(๑•̀ㅂ•́)و✧

Test3 mysql -excel

1.拖拽出一个表输入组件和Excel输出组件并连接

在这里插入图片描述
在这里插入图片描述

2.配置表输入

注意:无论连接的是本地还是集群上的Mysql,都需要先开启数据库服务。

在这里插入图片描述
在这里插入图片描述

在上面一步创建连接时指定的连接名称的数据库中选择需要作为输入的表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.配置Excel输出组件

在这里插入图片描述
在这里插入图片描述

4.运行

在这里插入图片描述
在这里插入图片描述

看到转换完成的日志结果后,打开作为输出的Excel文件,nice,又成功了!

在这里插入图片描述
在这里插入图片描述

总结

看到这里,相信大家还是意犹未尽(又在想peach…),但苦于篇幅有限,本菌也只能暂且为大家带来这么多。本篇只列出三个案例,简单带着没使用过的朋友入了下门。其实关于Kettle的更多复杂使用还没在这里细讲,至少在我所需要掌握的范围内,就多达几十个

很佩服能坚持看到这里的各位朋友,为你们点个赞?

放心,关于Kettle更多的操作,博主都会补给大家?

谁让我有一批这么帅气的粉丝呢٩(๑❛ᴗ❛๑)۶

如果对你有所帮助,记得点赞评论关注三连|ू・ω・` )

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-04-28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 可视化ETL工具
    • Kettle介绍
      • 大数据岗位需求
        • Kettle安装,配置
          • 入门案例
            • Test1 csv - excel
            • Test2 json-excel
            • Test3 mysql -excel
          • 总结
          相关产品与服务
          文件存储
          文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档