如何搭建Hadoop伪分布式集群?

如何搭建Hadoop伪分布式集群,本文将详细介绍。

1、下载Hadoop压缩包

wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

2、解压Hadoop压缩包

mkdir /bigdata
tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata

3、配置Hadoop(伪分布式)

cd /bigdata/hadoop-2.6.5/etc/hadoop
1)vim hadoop-env.xml
export JAVA_HOME=/usr/lib/jvm/java
2)vim core-site.xml
 <configuration>
   <!-- 配置hdfs的namenode的地址-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master</value>
    <property>
    <!-- 配置Hadoop运行时产生数据的存储目录,注意:不是临时数据 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/local/var/hadoop/tmp/hadoop~${user.name}</value>
    </property>
</configuration>
3)vim hdfs-site.xml
 <configuration>
   <!-- 指定HDFS存储数据的副本数据量-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    <property>
</configuration>
4)vim mapred-site.xml
 <configuration>
   <!-- 指定MapReduce编程模型运行在YARN上-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    <property>
</configuration>
5)vim yarn-site.xml
<configuration>
    <!-- 指定YARN的resourcemanager的地址(伪分布式时就是主机名,localhost或IP地址都行) -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    <property>

    <!--  MapReduce执行shuffle时获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    <property>
</configuration>
6)vim /etc/hosts

添加主机ip与主机名的映射:

192.168.29.188 master

4、HDFS初始化

即格式化HDFS(的namenode),

cd hadoop/hadoop-2.6.5/bin

hadoop namenode -format

5、启动Hadoop集群

cd hadoop/hadoop-2.6.5/sbin

//在hadoop-2.x中,推荐使用start-dfs.sh和start-yarn.sh来分别启动
start-all.sh

6、使用jps命令查看进程是否存在

8707    DataNode
8580    NameNode
9013    ResourceManager
8873    SecondaryNameNode
18057   Application
9308    NodeManager
17644   Jps

7、查看WEB界面

访问HDFS的管理界面:ip:50070

访问YARN的管理界面:ip:8088

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何使用Cloudera Manager启用YARN的HA

前面Fayson写过《如何使用Cloudera Manager启用HDFS的HA》,YARN的HA架构和HDFS的HA类似,需要启动两个ResourceMana...

4069
来自专栏祝威廉

StreamingPro 支持Spark Structured Streaming

Structured Streaming 的文章参考这里: Spark 2.0 Structured Streaming 分析。2.0的时候只是把架子搭建起来了...

943
来自专栏python学习指南

Spark中文指南(入门篇)-Spark编程模型(一)

前言 本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程 本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spa...

2299
来自专栏Hadoop实操

如何查看集成Sentry后Hive作业的真实用户

在CDH集群启用Sentry服务后,需要关闭Hive的启用模拟功能,hive.server2.enable.impersonation设为false,这会导致任...

5085
来自专栏我是攻城师

CDH-Hadoop2.6+ Apache Pig0.15安装记录

3475
来自专栏about云

让你真正理解什么是SparkContext, SQLContext 和HiveContext

问题导读 1.你认为SparkContext的作用是什么? 2.SQLContext 和HiveContext的区别是什么? 3.SQLContext、Hiv...

4889
来自专栏大数据

Zzreal的大数据笔记-SparkDay03

Spark的运行模式 ? Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也...

2029
来自专栏Hadoop实操

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

继上一章介绍如何使用R连接Hive与Impala后,Fayson接下来讲讲如何在CDH集群中提交R的Spark作业,Spark自带了R语言的支持,在此就不做介绍...

3806
来自专栏Hadoop实操

非Kerberos环境下Hive2.2.0 On Tez集成

在前面的文章《如何在CDH集群中安装Hive2.3.3》、《如何为Hive2启用Kerberos认证》及《Hive2.2.0如何与CDH集群中的Spark1.6...

1782
来自专栏叁金大数据

Hadoop基础(二)

我们知道在HDFS中我们的文件按数据块进行存储,那么当我们写入或者读取一个文件的时候HDFS到底进行了哪些操作呢?

851

扫码关注云+社区