腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏作者

511

文章

707409

阅读量

108

订阅数

基于 HBase & Phoenix 构建实时数仓（1）—— Hadoop HA 安装部署

hbase 实时数仓部署配置 hadoop

172.18.4.126 node1 172.18.4.188 node2 172.18.4.71 node3 172.18.4.86 node4

2024-03-08

820

为已存在的Hadoop集群配置HDFS Federation

hbase TDSQL MySQL 版 node.js hadoop zookeeper

一、实验目的 1. 现有Hadoop集群只有一个NameNode，现在要增加一个NameNode。 2. 两个NameNode构成HDFS Federation。 3. 不重启现有集群，不影响数据访问。二、实验环境 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 kettle 其中kettle是新增的一台“干净”的机器，已经配置好免密码ssh，将作为新增的NameNode。软件版本： hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 spark 1.5.0 zookeeper 3.4.8 kylin 1.5.1 现有配置： master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器三、配置步骤 1. 编辑master上的hdfs-site.xml文件，修改后的文件内容如下所示。

2022-05-07

4750

kylin 安装配置实验

http hive bash bash 指令 hadoop

一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1（一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包） master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器

2022-05-07

2470

基于独立Zookeeper集群的Hbase 安装配置实验

hbase TDSQL MySQL 版 hadoop zookeeper http

前面做了基于Hbase自带Zookeeper的安装配置（参考http://blog.csdn.net/wzy0623/article/details/51241641），今天做了个基于独立Zookeeper集群的。一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器 hadoop 2.7.2 hbase 1.2.1 zooeeper 3.4.8 二、安装配置zooeeper

2022-05-07

2080

重新编译Hadoop 2.7.2 native以支持snappy

hadoop yum 数据结构打包 http

问题提出：在运行kylin sample时出现以下错误： org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support. 造成以上错误的原因是Hadoop的二进制安装包中没有snappy支持，需要手工重新编译。操作过程： 1. 下载所需要的源码包 snappy-1.1.1.tar.gz protobuf-2.5.0.tar.gz hadoop-2.7.2-src.tar.gz 2. 准备编译环境 yum install svn yum install autoconf automake libtool cmake yum install ncurses-devel yum install openssl-devel yum install gcc* 3. 编译安装snappy # 用root用户执行以下命令 tar -zxvf snappy-1.1.1.tar.gz cd snappy-1.1.1/ ./configure make make install # 查看snappy库文件 ls -lh /usr/local/lib |grep snappy 4. 编译安装protobuf # 用root用户执行以下命令 tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/ ./configure make make install # 查看protobuf版本以测试是否安装成功 protoc --version 5. 编译hadoop native tar -zxvf hadoop-2.7.2-src.tar.gz cd hadoop-2.7.2-src/ mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

2022-05-07

3280

Hbase 安装配置实验

hbase TDSQL MySQL 版 hadoop http html

一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.2.1 hbase与hadoop的版本兼容性，参考 http://hbase.apache.org/book.html#basic.prerequisites 二、安装hadoop集群 hadoop 2.7.2 安装，参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装配置hbase 1. 加压缩 tar -zxvf hbase-1.2.1-bin.tar.gz 2. 建立软连接 ln -s hbase-1.2.1 hbase 3. 修改三个配置文件 cd hbase/conf vi hbase-env.sh # 添加以下内容

2022-05-07

3220

Zeppelin 安装部署实验

hadoop spark http hive 数据库

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境： 12个节点的Spark集群，以standalone方式部署，各个节点运行的进程如表1所示。

2022-05-07

3610

Pentaho Work with Big Data（六）—— 使用Pentaho MapReduce生成聚合数据集

mapreduce http hadoop bash bash 指令

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据，并且建立一个聚合文件，包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录，参考 http://blog.csdn.net/wzy0623/article/details/51145570。一、向HDFS导入示例数据文件将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下（因资源有限，本示例只取了这个文件的前100行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

3840

Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

http hadoop hive 网站

1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。

2022-05-07

2710

Spark on YARN 部署实验

spark 数据库 sql yarn hadoop

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的 1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3. 通过YARN的WebUI查看Spark作业的执行情况。二、实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode和ResourceManager进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode和NodeManager进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装Spark 只在192.168.56.101一台机器上上安装Spark，具体安装步骤参考 http://blog.csdn.net/wzy0623/article/details/50946766 四、配置步骤 1. 启动Hadoop集群 # 启动hdfs /home/grid/hadoop-2.7.2/sbin/start-dfs.sh # 启动yarn /home/grid/hadoop-2.7.2/sbin/start-yarn.sh 2. 将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0.jar /user/ 3. 编辑spark-defaults.conf文件，添加如下一行 spark.yarn.jar=hdfs://master:9000/user/spark-assembly-1.5.0-hadoop2.6.0.jar 修改后的spark-defaults.conf文件如图1所示

2022-05-07

3600

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

spark hadoop http bash bash 指令

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

2022-05-07

4290

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

hadoop xml node.js 大数据专用宿主机

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

2022-05-07

8290

Hadoop集群安装配置实验

ssh hadoop 面向对象编程 node.js linux

一、环境四台 VirtualBox上的Linux虚机，每台硬盘20G，内存768M。 IP与主机名： 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划： 192.168.56.101做master，运行NameNode和ResourceManager进程。其它三台主机做slave，运行DataNode和NodeManager进程。操作系统：CentOS release 6.4 (Final) java版本：jdk1.7.0_75 hadoop版本：hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh（这里配置了任意两台机器都免密码）（1）分别在四台机器上生成密钥对： cd ~ ssh-keygen -t rsa 然后一路回车（2）在master上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ （3）在slave1上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ （4）在slave2上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ （5）在slave3上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此，免密码ssh配置完成。三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件（1）编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件，添加如下内容，如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>

2022-05-07

4150

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

hadoop hive mapreduce 大数据 spark

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

2020-09-02

5.5K0

Kettle与Hadoop（四）导入导出Hadoop集群数据

大数据 hadoop http https 云数据库 SQL Server

1. 向HDFS导入数据从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/root/big_data目录下。 http://wiki.pentaho.co

2020-06-02

1.1K0

Kettle与Hadoop（三）连接Hadoop

hadoop 大数据数据库 sql xml

Kettle可以与Hadoop协同工作。让我们从简单的开始，本文介绍如何配置Kettle访问Hadoop集群（HDFS、MapReduce、Zookeeper、Oozie等），以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。

2020-05-29

3.4K0

基于Hadoop生态圈的数据仓库实践 —— 目录

hadoop 数据可视化 hive

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51757009

2019-05-25

5840

基于Hadoop生态圈的数据仓库实践 —— ETL（二）

hive 内容分发网络 CDN mapreduce 大数据 hadoop

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51837457

2019-05-25

2.1K0

基于Hadoop生态圈的数据仓库实践 —— 环境搭建（三）

hadoop 数据分析 hive 数据库 sql

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51783410

2019-05-25

9641

基于Hadoop生态圈的数据仓库实践 —— 环境搭建（一）

hadoop 开源打包

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51757045

2019-05-25

5310

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态