Kettle 7.1 连接Hadoop集群

设置Hadoop环境

在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。

复制core-site.xml文件

复制 Hadoop 环境下的的 core-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25” 目录下。

做完上面两步后,重新启动 Kettle。

测试Hadoop集群连接

  • 添加一个Transformations。
  • 在 View -> Transformations -> Hadoop clusters 添加一个新的 Hadoop 集群。配置大致如下:(修改后可以测试一下) Cluster Name: myhdfs Storage: HDFS HDFS: (可以参考core-site.xml文件) Hostname: <ip> Port: 8020 Username: <user> Password: <password> JobTracker: Hostname: <ip> Port: 8032 Zookeeper: Hostname: <ip> Port: 2181
  • 在工作区,拖拽一个 “Hadoop File Input” 和 “Hadoop File Output”,并建立关联。
  • 修改“Hadoop File Input” Environment: myhdfs File/Folder: /tmp/users.dat
  • 修改“Hadoop File Output” Hadoop cluster: myhdfs Folder/File: /tmp/users_new.dat
  • 运行Transformations,然后检查结果。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Albert陈凯

hadoop安装可能遇到的问题Incompatible namespaceIDs

如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹...

35280
来自专栏Hadoop实操

非Kerberos环境下Hive2.2.0 On Tez集成

在前面的文章《如何在CDH集群中安装Hive2.3.3》、《如何为Hive2启用Kerberos认证》及《Hive2.2.0如何与CDH集群中的Spark1.6...

33020
来自专栏Hadoop实操

CentOS6.5安装CDH5.13

Cloudera前一段时间发布了CDH5.13版本,5.13的新功能可以参考前一篇文章CDH5.13和CM5.13的新功能,本文章主要讲述如何在CentOS6....

1.6K80
来自专栏Hadoop实操

Hive2.2.0如何与CDH集群中的Spark1.6集成

26320
来自专栏Hadoop实操

如何使用Cloudera Manager启用HDFS的HA

在HDFS集群中NameNode存在单点故障(SPOF),对于只有一个NameNode的集群,如果NameNode机器出现意外,将导致整个集群无法使用。为了解决...

1.6K40
来自专栏蓝天

Hadoop-2.8.0分布式安装手册

10.12.154.79: Error: JAVA_HOME is not set and could not be found.

71920
来自专栏PPV课数据科学社区

大数据技术Hadoop面试题,看看你能答对多少?

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameN...

36340
来自专栏Hadoop实操

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业,文章中均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Ke...

1.4K40
来自专栏数据之美

windows 安装 spark 及 pycharm 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windo...

56260
来自专栏Hadoop实操

如何在HDFS上查看YARN历史作业运行日志

在未开通Yarn Web界面端口8088,或者开通了8088,没有开通单个NodeManager如8042时,在MapReduce作业有失败时,往往我们没法直接...

86440

扫码关注云+社区

领取腾讯云代金券