腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏作者

511

文章

707857

阅读量

108

订阅数

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

hadoop xml node.js 大数据专用宿主机

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

2022-05-07

8290

DBeaver连接hive、impala、phoenix、HAWQ、redis

node.js 数据库 nosql sql 专用宿主机

伴随着技术的不断发展与进步，我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库，到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品，再到屡见不鲜的各种大数据组件，如Hive、Impala、HBase、Phoenix、Spark，以及林林总总的时序数据库、全文检索系统、图数据库等等。如果有一个Client，能够连接所有这些数据源，并将常规开发环境（如SQL脚本）都集中在一个GUI中，则必将为技术人员节省大量寻找并熟悉相应工具的时间，从而提高工作效率。正所谓工欲善其事，必先利其器，本篇介绍的DBeaver正是这样一款工具软件。

2020-06-16

6.9K0

Kettle与Hadoop（九）提交Spark作业

大数据 https 网络安全专用宿主机 spark

实验环境： Spark History Server： 172.16.1.126

2020-06-11

1.5K0

CDH 6.3.1整合Zeppelin 0.8.2

专用宿主机 hive 云数据库 SQL Server spark 数据可视化

Zeppelin是一个基于Web的笔记本，可以直接在浏览器中编写代码，对数据进行查询分析并生成报表或图表，做出数据驱动的、交互、协作的文档，并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成，提供的功能有：

2020-03-18

2.1K0

在CDH 6.3.1上安装HAWQ 2.4.0

大数据专用宿主机

CDH 6.3.1集群主机： 172.16.1.124：NameNode、SecondaryNameNode 172.16.1.125：DataNode 172.16.1.126：DataNode 172.16.1.127：DataNode

2020-03-18

5410

一键式完全删除CDH 6.3.1

专用宿主机 bash bash 指令

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-11-12

3K0

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（四）

专用宿主机数据分析数据可视化 hadoop 网站

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52352818

2019-05-25

1.1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态