前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pentaho Work with Big Data(二)—— Kettle提交Spark作业

Pentaho Work with Big Data(二)—— Kettle提交Spark作业

作者头像
用户1148526
发布2022-05-07 13:01:31
4870
发布2022-05-07 13:01:31
举报
文章被收录于专栏:Hadoop数据仓库

实验目的: 配置Kettle向Spark集群提交作业。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主,运行Master进程。 192.168.56.102、192.168.56.103是Spark的从,运行Worker进程。 192.168.56.104安装Pentaho的PDI,安装目录为/home/grid/data-integration。 Hadoop版本:2.7.2 Spark版本:1.5.0 PDI版本:6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤: 1. 在PDI主机上安装Spark客户端 将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机 在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件 (1)在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname (2)编辑spark-env.sh文件,写如下两行,如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

图1 (3)编辑spark.sh,写如下三行,如图2所示 export SPARK_HOME=/home/grid/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54

图2 3. 修改PDI的Spark例子 cp /home/grid/data-integration/samples/jobs/Spark\ Submit/Spark\ submit.kjb /home/grid/data-integration/test/Spark\ Submit\ Sample.kjb 在Kettle中打开/home/grid/data-integration/test/Spark\ Submit\ Sample.kjb文件,如图4所示

图4 编辑Spark Submit Sample作业项,填写如图5所示的信息

图5 4. 执行例子 (1)在HDFS上准备测试文件/user/grid/input hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input (2)执行Spark Submit Sample作业,部分结果如图6所示

图6 spark的UI控制台如图7所示

图7 参考: http://help.pentaho.com/Documentation/6.0/0L0/040/029 http://wiki.pentaho.com/display/EAI/Spark+Submit

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档