如何搭建Hadoop伪分布式集群?

如何搭建Hadoop伪分布式集群,本文将详细介绍。

1、下载Hadoop压缩包

wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

2、解压Hadoop压缩包

mkdir /bigdata
tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata

3、配置Hadoop(伪分布式)

cd /bigdata/hadoop-2.6.5/etc/hadoop
1)vim hadoop-env.xml
export JAVA_HOME=/usr/lib/jvm/java
2)vim core-site.xml
 <configuration>
   <!-- 配置hdfs的namenode的地址-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master</value>
    <property>
    <!-- 配置Hadoop运行时产生数据的存储目录,注意:不是临时数据 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/local/var/hadoop/tmp/hadoop~${user.name}</value>
    </property>
</configuration>
3)vim hdfs-site.xml
 <configuration>
   <!-- 指定HDFS存储数据的副本数据量-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    <property>
</configuration>
4)vim mapred-site.xml
 <configuration>
   <!-- 指定MapReduce编程模型运行在YARN上-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    <property>
</configuration>
5)vim yarn-site.xml
<configuration>
    <!-- 指定YARN的resourcemanager的地址(伪分布式时就是主机名,localhost或IP地址都行) -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    <property>

    <!--  MapReduce执行shuffle时获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    <property>
</configuration>
6)vim /etc/hosts

添加主机ip与主机名的映射:

192.168.29.188 master

4、HDFS初始化

即格式化HDFS(的namenode),

cd hadoop/hadoop-2.6.5/bin

hadoop namenode -format

5、启动Hadoop集群

cd hadoop/hadoop-2.6.5/sbin

//在hadoop-2.x中,推荐使用start-dfs.sh和start-yarn.sh来分别启动
start-all.sh

6、使用jps命令查看进程是否存在

8707    DataNode
8580    NameNode
9013    ResourceManager
8873    SecondaryNameNode
18057   Application
9308    NodeManager
17644   Jps

7、查看WEB界面

访问HDFS的管理界面:ip:50070

访问YARN的管理界面:ip:8088

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

HOSTS配置问题导致集群异常故障分析

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

4019
来自专栏Hadoop实操

如何在CDH集群中安装Hive2.3.3

2823
来自专栏Java成神之路

hive_学习_02_hive整合hbase(失败)

本文承接上一篇:hive_学习_01_hive环境搭建(单机) ,主要是记录 hive 整合hbase的流程

502
来自专栏架构师小秘圈

Hive极简教程

一、HIVE架构 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和...

4856
来自专栏about云

监控hadoop生态系统企业应该用什么监控软件

问题导读 1.文中哪些监控软件有邮件通知功能? 2.监控粒度更细如何自定义实现? 3.哪些监控软件可以自定义? 企业转型大数据,随着发展,可能会遇到很多的问...

3357
来自专栏大数据技术分享

如何获取Hive正在执行或已结束的SQL语句

本文主要介绍两种方式来获取Hive正在执行或者已结束的的MapReduce作业的SQL语句,一种是通过MapReduce API获取执行作业的xml配置文件,另...

3720
来自专栏Hadoop实操

Cloudera Manager管理控制台

Cloudera Manager管理控制台(Cloudera Manager Admin Console)是一个基于Web的用户界面,用于配置,管理和监控CDH...

6789
来自专栏瓜大三哥

集中索引文件系统

目前使用在NAND Flash上的文件系统主要有两种类型[25]:一种是集中索引文件系统(不是专为NAND Flash存储器设计的),主要有常用于磁盘存储器的W...

1806
来自专栏个人分享

Hadoop源码分类概要整理

  最近突然觉得, 很多掌握的都还是很浅的原理,需要更深入细粒度去了解整个分布式系统的运转机制。于是。。开始作死而又作死而又作死的源码之旅。

913
来自专栏Albert陈凯

hadoop安装可能遇到的问题Incompatible namespaceIDs

如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹...

3328

扫码关注云+社区