腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏作者

511

文章

708089

阅读量

108

订阅数

为已存在的Hadoop集群配置HDFS Federation

hbase TDSQL MySQL 版 node.js hadoop zookeeper

一、实验目的 1. 现有Hadoop集群只有一个NameNode，现在要增加一个NameNode。 2. 两个NameNode构成HDFS Federation。 3. 不重启现有集群，不影响数据访问。二、实验环境 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 kettle 其中kettle是新增的一台“干净”的机器，已经配置好免密码ssh，将作为新增的NameNode。软件版本： hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 spark 1.5.0 zookeeper 3.4.8 kylin 1.5.1 现有配置： master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器三、配置步骤 1. 编辑master上的hdfs-site.xml文件，修改后的文件内容如下所示。

2022-05-07

4760

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

hadoop xml node.js 大数据专用宿主机

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

2022-05-07

8300

Hadoop集群安装配置实验

ssh hadoop 面向对象编程 node.js linux

一、环境四台 VirtualBox上的Linux虚机，每台硬盘20G，内存768M。 IP与主机名： 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划： 192.168.56.101做master，运行NameNode和ResourceManager进程。其它三台主机做slave，运行DataNode和NodeManager进程。操作系统：CentOS release 6.4 (Final) java版本：jdk1.7.0_75 hadoop版本：hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh（这里配置了任意两台机器都免密码）（1）分别在四台机器上生成密钥对： cd ~ ssh-keygen -t rsa 然后一路回车（2）在master上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ （3）在slave1上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ （4）在slave2上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ （5）在slave3上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此，免密码ssh配置完成。三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件（1）编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件，添加如下内容，如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>

2022-05-07

4150

VirtualBox下Linux虚机扩容

linux jquery node.js

节后上班第一天，按计划着手搭建hadoop和hive实验环境，还没开始安装就碰到一个坎，JDK安装包解包时报空间不足。原来的四个虚机，每个分配了8G，其中根文件系统6G，做完Fabric实验后空间所剩无几，因此需要扩容。下面记录的就是实际操作步骤。环境： VirtualBox 5.0.10、CentOS release 6.4 1. 使用下面的命令查看虚拟机的UUID VBoxManage list hdds 结果如图1所示：

2022-05-07

1.9K0

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

bash bash 指令 hive yarn node.js

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

2020-10-26

5.8K0

DBeaver连接hive、impala、phoenix、HAWQ、redis

node.js 数据库 nosql sql 专用宿主机

伴随着技术的不断发展与进步，我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库，到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品，再到屡见不鲜的各种大数据组件，如Hive、Impala、HBase、Phoenix、Spark，以及林林总总的时序数据库、全文检索系统、图数据库等等。如果有一个Client，能够连接所有这些数据源，并将常规开发环境（如SQL脚本）都集中在一个GUI中，则必将为技术人员节省大量寻找并熟悉相应工具的时间，从而提高工作效率。正所谓工欲善其事，必先利其器，本篇介绍的DBeaver正是这样一款工具软件。

2020-06-16

6.9K0

MySQL高可用之DRBD

node.js 云数据库 SQL Server tcp/ip ios

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-11-15

1.6K0

Galera Cluster for MySQL 详解（二）——安装配置

node.js 云数据库 SQL Server 数据库 sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-10-22

3.4K0

快速安全删除MySQL大表

node.js unix 云数据库 SQL Server 数据库 sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-10-22

5.6K1

触类旁通Elasticsearch：扩展

es node.js 网络安全

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/87281895

2019-05-25

4440

OushuDB入门（一）——安装篇

hadoop 云数据库 SQL Server node.js 数据库 sql

OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库(New Data Warehouse)。该产品采用了存储与计算分离技术架构，具有MPP的所有优点，还具有弹性，支持混合工作负载和高扩展性等优点。作为HAWQ的增强版，OushuDB遵循ANSI-SQL标准，兼容Oracle、Greenplum Database和PostgreSQL，提供PB级数据交互式查询能力，提供对主要BI工具的描述性分析和AI支持。

2019-05-25

1.3K0

触类旁通Elasticsearch：管理

es 缓存 api node.js 数据备份

（1）创建模板当待创建的索引与之前的索引有相同的设置和映射时，非常适合使用索引模板。正如其名，索引模板将会用于和预定义名称模式相匹配的索引创建，以确保所有匹配索引的设置一致。例如：

2019-05-25

9520

HAWQ技术解析（十三） —— 资源管理

yarn node.js 容器

2018-01-03

1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态