前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kettle与Hadoop(三)连接Hadoop

Kettle与Hadoop(三)连接Hadoop

作者头像
用户1148526
发布2020-05-29 16:38:27
3.3K0
发布2020-05-29 16:38:27
举报

目录

一、环境说明

二、连接Hadoop集群

三、连接Hive

四、连接Impala

五、后续(建立MySQL数据库连接)

参考:Use Hadoop with Pentaho

Kettle可以与Hadoop协同工作。让我们从简单的开始,本文介绍如何配置Kettle访问Hadoop集群(HDFS、MapReduce、Zookeeper、Oozie等),以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。

一、环境说明

1. Hadoop

已经安装好4个节点的CDH 6.3.1,IP地址及主机名如下: 172.16.1.124 manager 172.16.1.125 node1 172.16.1.126 node2 172.16.1.127 node3

启动的Hadoop服务如图1所示,所有服务都使用缺省端口。

图1

2. Kettle

已经在172.16.1.105安装好PDI 8.3,安装目录为/root/data-integration。为了用主机名访问Hadoop相关服务,在Kettle主机的/etc/hosts文件中添加了如下内容:

172.16.1.124 manager
172.16.1.125 node1
172.16.1.126 node2
172.16.1.127 node3

二、连接Hadoop集群

1. 在Kettle中配置Hadoop客户端文件

(1)在浏览器中登录Cloudera Manager,选择hive服务,点击“操作”->“下载客户端配置”。得到如图2的文件。

图2

(2)将上一步得到的Hadoop客户端配置文件复制到Kettle的~/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh61/目录下,覆盖原来自带的core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xml、mapred-site.xml 5个文件。

2. 启动spoon

/root/data-integration/spoon.sh

3. 在spoon中选择Hadoop种类

选择主菜单“Tools” -> “Hadoop Distribution...”,在对话框中选择“Cloudera CDH 6.1.0”,如图3所示。

图3

4. 重启spoon

5. 在Spoon创建Hadoop clusters对象 (1)新建转换 主菜单 File -> New -> Transformation

(2)新建Hadoop集群对象 在工作区左侧的树的View标签中,选择 Hadoop clusters -> 右键New Cluster,对话框中输入如图4所示的属性值。然后点击“Test”按钮,结果如图5所示。除了Kafka因没有在CDH中启动服务导致连接失败以外,其它均通过测试。最后点击“OK”保存Hadoop集群对象。

图4

图5

三、连接Hive

1. 新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图6所示的属性值。

图6

点击“Test”按钮,连接Hive成功如图7所示。

图7

然后点击“OK”保存数据库连接对象。

2. 共享数据库连接对象 为其它转换或作业能够使用数据库连接对象,需要将它设置为共享。选择 Database Connections -> hive_cdh631 -> 右键Share,然后保存转换。

四、连接Impala

1. 新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图8所示的属性值。

图8

点击“Test”按钮,连接Impala成功如图9所示。

图9

然后点击“OK”保存数据库连接对象。

2. 共享数据库连接对象 为其它转换或作业能够使用数据库连接对象,需要将它设置为共享。选择 Database Connections -> impala_cdh631 -> 右键Share,然后保存转换。

五、后续(建立MySQL数据库连接)

为了给后面创建的转换或作业使用,我们再定义一个普通的mysql数据库连接对象。

1. 拷贝MySQL驱动jar文件 这里使用的是MySQL 5.6.14版本,需要将相应的驱动程序文件拷贝到Kettle安装目录的lib目录下。

cp mysql-connector-java-5.1.38-bin.jar /root/data-integration/lib

之后重启Spoon加载新增的驱动程序。

2. 新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图10所示的属性值。

图10

点击“Test”按钮,连接MySQL成功如图11所示。

图11

然后点击“OK”保存数据库连接对象。

3. 共享数据库连接对象 为其它转换或作业能够使用数据库连接对象,需要将它设置为共享。选择 Database Connections -> mysql_node3 -> 右键Share,然后保存转换。

至此已经创建了一个Hadoop集群对象和三个数据库连接对象,如图12所示。

图12

后面将在这些对象上进行一系列Kettle读写Hadoop组件的实验。

参考:Use Hadoop with Pentaho

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-05-28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、环境说明
  • 二、连接Hadoop集群
  • 三、连接Hive
  • 四、连接Impala
  • 五、后续(建立MySQL数据库连接)
  • 参考:Use Hadoop with Pentaho
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档