CentOS 7安装Hadoop 3.0.0

最近在学习大数据,需要安装Hadoop,自己弄了好久,最后终于弄好了。网上也有很多文章关于安装Hadoop的,但总会遇到一些问题,所以把在CentOS 7安装Hadoop 3.0.0的整个过程记录下来,有什么不对的地方大家可以留言更正。

  一、ssh免密登录

1、测试是否能免密登录

      # ssh localhost

The authenticity of host 'localhost (::1)' can't be established.

2、设置免密登录

1)、去掉 /etc/ssh/sshd_config中的两行注释,如没有则添加,所有服务器都要设置的:

        #RSAAuthentication yes  
        #PubkeyAuthentication yes 

2)、生成秘钥:

# ssh-keygen -t rsa

备注:输入命令后回车4次

3)、复制到公共密钥中:

# cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys

4)、将秘钥复制到目标服务器:

# ssh-copy-id 目标服务器IP

5)、测试:(没有报错,并没有提示输入目标服务器用户密码,用户切换到目标服务器用户名则成功)

# ssh 目标服务器IP

备注:配置好了hadoop1到hadoop2免密登录,同时需要配置hadoop2到hadoop1的免密登录,在hadoop2上操作,过程同上

  二、安装JDK

hadoop-3.0.0需要jdk1.8,此处省略安装过程,网上很多,过程也比较简单

  三、安装hadoop

1、下载hadoop:

http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.0.0/

2、解压安装:

 1)、复制 hadoop-3.0.0.tar.gz 到/usr/hadoop目录下, 然后

  #tar -xzvf hadoop-3.0.0.tar.gz

解压,解压后目录为:/usr/hadoop/hadoop-3.0.0,Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:

#cd /usr/hadoop/hadoop-3.0.0 
        #./bin/hadoop version

2),在/usr/hadoop/目录下,建立tmp:

#mkdir /usr/hadoop/tmp

3)、设置环境变量:

#vi /etc/profile
        # set hadoop path 
        export HADOOP_HOME=/usr/hadoop/hadoop-3.0.0 
        export PATH=$PATH:$HADOOP_HOME/bin

4)、使环境变量生效,终端中运行如下命令:

#source /etc/profile

5)、设置hadoop:     

一共需要配置主要的6个文件:

  hadoop-3.0.0/etc/hadoop/hadoop-env.sh 

  hadoop-3.0.0/etc/hadoop/yarn-env.sh 

  hadoop-3.0.0/etc/hadoop/core-site.xml 

  hadoop-3.0.0/etc/hadoop/hdfs-site.xml 

hadoop-3.0.0/etc/hadoop/mapred-site.xml 

hadoop-3.0.0/etc/hadoop/yarn-site.xml

        ⑴、配置hadoop-env.sh:

          # The java implementation to use.  
          #export JAVA_HOME=${JAVA_HOME}  
          export JAVA_HOME=/usr/java/jdk1.8.0_152 //根据自己jdk安装目录配置

⑵、配置yarn-env.sh:

          #The java implementation to usr  
          export JAVA_HOME=/usr/java/jdk1.8.0_152 //根据自己jdk安装目录配置

⑶、配置core-site.xml:

  <!-- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->
          <configuration>  
            <property>  
              <name>fs.default.name</name>  
              <value>hdfs://localhost:9000</value>  
              <description>HDFS的URI,文件系统://namenode标识:端口号</description>  
            </property>  
  
            <property>  
              <name>hadoop.tmp.dir</name>  
              <value>/usr/hadoop/tmp</value> 
              <description>namenode上本地的hadoop临时文件夹</description>  
            </property>  
          </configuration>

⑷、配置hdfs-site.xml:

  <configuration>  
          <!—hdfs-site.xml-->  
            <property>  
              <name>dfs.replication</name>  
              <value>1</value>  
              <description>副本个数,配置默认是3,应小于datanode机器数量</description>  
            </property>  
          </configuration>

⑸、配置mapred-site.xml:

  <!-- 指定mr运行在yarn上 -->
          <configuration>  
            <property>  
                <name>mapreduce.framework.name</name>  
                <value>yarn</value>  
            </property>  
          </configuration>

⑹、配置yarn-site.xml:

  <!-- 指定YARN的老大(ResourceManager)的地址 -->
          <configuration>  
            <property>  
                  <name>yarn.nodemanager.aux-services</name>  
                  <value>mapreduce_shuffle</value>  
            </property>   

     <!-- reducer获取数据的方式 -->              <property>               <name>yarn.nodemanager.aux-services</name>               <value>mapreduce_shuffle</value>              </property>

</configuration>

  备注:以上配置都是以最简配置,还有很多配置可以自行添加

       6)、将/usr/hadoop复制到其他服务器:

          scp -r /usr/hadoop root@192.168.1.11:/usr/hadoop

 7)、格式化namenode:

  #CD /usr/hadoop/hadoop-3.0.0
          # ./bin/hdfs namenode -format

  成功的话,会看到 “successfully formatted” 和 “Exitting with status 0” 的提示,若为 “Exitting with status 1” 则是出错          

  备注:只需格式化namenode,datanode不需要格式化(若格式化了,可将/usr/hadoop/tmp目录下文件都删除),所以先将安装文件夹复制到其他服务器,再格式化

    四、测试:

      1、启动HDFS:

      #CD /usr/hadoop/hadoop-3.0.0
      # sbin/start-dfs.sh

如果运行脚本报如下错误,

ERROR: Attempting to launch hdfs namenode as root       ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch.       Starting datanodes       ERROR: Attempting to launch hdfs datanode as root       ERROR: but there is no HDFS_DATANODE_USER defined. Aborting launch.       Starting secondary namenodes [localhost.localdomain]       ERROR: Attempting to launch hdfs secondarynamenode as root       ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting launch.

解决方案

(缺少用户定义而造成的)因此编辑启动和关闭

      $ vim sbin/start-dfs.sh
      $ vim sbin/stop-dfs.sh

顶部空白处添加

      HDFS_DATANODE_USER=root  
      HADOOP_SECURE_DN_USER=hdfs  
      HDFS_NAMENODE_USER=root  
      HDFS_SECONDARYNAMENODE_USER=root

2)启动ResourceManager和NodeManager:

      #CD /usr/hadoop/hadoop-3.0.0
      #sbin/start-yarn.sh

      如果启动时报如下错误,

      Starting resourcemanager       ERROR: Attempting to launch yarn resourcemanager as root       ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting launch.

      解决方案

(也是由于缺少用户定义)

      是因为缺少用户定义造成的,所以分别编辑开始和关闭脚本 

      $ vim sbin/start-yarn.sh 
      $ vim sbin/stop-yarn.sh 

顶部空白添加

      YARN_RESOURCEMANAGER_USER=root  
      HADOOP_SECURE_DN_USER=yarn  
      YARN_NODEMANAGER_USER=root

3)、启动验证:

执行jps命令,出现下图基本完成

备注:也可以使用下面命令同时启动HDFS和ResourceManager、NodeManager:

      #CD /usr/hadoop/hadoop-3.0.0
      #sbin/start-all.sh

Hadoop2.3-HA高可用集群环境搭建  http://www.linuxidc.com/Linux/2017-03/142155.htm

Hadoop项目之基于CentOS7的Cloudera 5.10.1(CDH)的安装部署  http://www.linuxidc.com/Linux/2017-04/143095.htm

Hadoop2.7.2集群搭建详解(高可用)  http://www.linuxidc.com/Linux/2017-03/142052.htm

使用Ambari来部署Hadoop集群(搭建内网HDP源)  http://www.linuxidc.com/Linux/2017-03/142136.htm

Ubuntu 14.04下Hadoop集群安装  http://www.linuxidc.com/Linux/2017-02/140783.htm

CentOS 6.7安装Hadoop 2.7.2  http://www.linuxidc.com/Linux/2017-08/146232.htm

Ubuntu 16.04上构建分布式Hadoop-2.7.3集群  http://www.linuxidc.com/Linux/2017-07/145503.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建  http://www.linuxidc.com/Linux/2017-06/144932.htm

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程  http://www.linuxidc.com/Linux/2017-06/144926.htm

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址:http://www.linuxidc.com/Linux/2018-02/150812.htm

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏KaliArch

大数据平台CDH搭建

Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,...

4545
来自专栏Hadoop实操

如何将Kerberos环境下CDH集群JAVA升级至JDK8

大家都知道在安装CDH时默认安装的JDK版本为jdk1.7.0_67,部分企业开发环境为JDK8版本,这个时候可能会出现在本地开发的应用在集群中无法正常运行。前...

5105
来自专栏蓝天

使用process_monitor.sh监控hadoop进程的crontab配置

可以从下列链接找到process_monitor.sh: https://github.com/eyjian/mooon/blob/master/commo...

1182
来自专栏Hadoop实操

如何修改CM及CDH元数据库配置

在前面Fayson介绍了《如何实现CDH元数据库MySQL的主主互备》和《如何实现CDH元数据库MySQL的高可用》,实现了MySQL的高可用后访问地址有了变化...

5825
来自专栏Hadoop实操

如何在CDH5.13中安装CDSW1.2

Cloudera前一段时间发布了CDH5.13版本,5.13的新功能可以参考前一篇文章《CDH5.13和CM5.13的新功能》,在CDH5.13版本以后支持CD...

4965
来自专栏乐沙弥的世界

Windows 2012配置故障转移(For SQLServer 2014 AlwaysOn)

单击”管理”菜单,选择”添加角色和功能” 单击”下一步”,选择”基于角色或基于功能的安装”,单击”下一步” 选择本地服务器,单击”下一步”,直到功能模块...

1192
来自专栏Ken的杂谈

Hadoop高可用集群部署指南

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

1693
来自专栏Hadoop实操

如何使用Intellij搭建Spark开发环境

在开始Spark学习之前,首先需要搭建Spark的开发环境,可以基于Eclipse或者Intellij等IDE,本文档主要讲述如何使用Intellij搭建Spa...

3664
来自专栏Hadoop实操

如何指定Spark2作业中Driver和Executor使用指定范围内端口

在CDH集群中提交Spark作业,大家也都知道Spark的Driver和Executor之间通讯端口是随机的,Spark会随选择1024和65535(含)之间的...

9012
来自专栏AILearning

Apache Zeppelin 中 HDFS文件系统 解释器

概述 Hadoop文件系统是hadoop项目的分布式,容错文件系统的一部分,通常用作Hadoop MapReduce和Apache Spark或Allux...

2555

扫码关注云+社区

领取腾讯云代金券