前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群

Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群

作者头像
用户1148526
发布2022-05-07 13:00:17
8390
发布2022-05-07 13:00:17
举报
文章被收录于专栏:Hadoop数据仓库Hadoop数据仓库

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。 实验目的: 配置Kettle连接Hadoop集群的HDFS。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主,运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从,运行DataNode进程。 192.168.56.104安装Pentaho的PDI,安装目录为/root/data-integration。 Hadoop版本:2.7.2 PDI版本:6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤: 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下 在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户 我的Hadoop集群的属主是grid,所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP  修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

图1

图2

图3 6. 在Kettle中选择一个支持的Shim 选择菜单“工具”->“Hadoop Distribution...”,在弹窗中选择Cloudera CDH 5.4,如图4所示。

图4 7. 重启Kettle 8. 新建一个转换,在“主对象树”中选择“Hadoop cluster”,点击右键选择“New Cluster”,填写相关信息,如图5所示

图5 9. 点击“测试”,结果如图6所示,连接HDFS成功

图6 参考: http://help.pentaho.com/Documentation/6.0/0L0/040/025 http://help.pentaho.com/Documentation/6.0/0H0/070/030/010

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档