前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

作者头像
星哥玩云
发布2022-07-24 13:02:40
2.3K0
发布2022-07-24 13:02:40
举报
文章被收录于专栏:开源部署开源部署

Apache Hadoop是一个开源框架,用于分布式存储以及在商用硬件上运行的计算机集群上的大数据的分布式处理。 Hadoop将数据存储在Hadoop分布式文件系统(HDFS)中,并使用MapReduce完成这些数据的处理。 YARN提供用于在Hadoop集群中请求和分配资源的API。

Apache Hadoop框架由以下模块组成:

  • Hadoop Common
  • Hadoop Distributed File System (HDFS)
  • YARN
  • MapReduce

本文介绍如何在Ubuntu 18.04上安装Hadoop 2版本。 我们将在Pseudo Distributed Mode中的单节点集群上安装HDFS(Namenode和Datanode),YARN,MapReduce,这是在一台机器上进行伪分布式安装。 每个Hadoop守护进程(如hdfs、yarn、mapreduce等)都将作为单独的Java进程运行。

在本教程中,您将学习:

  • 如何为Hadoop环境添加用户
  • 如何安装和配置Oracle JDK
  • 如何配置无密码SSH
  • 如何安装Hadoop并配置必要的相关xml文件
  • 如何启动Hadoop集群
  • 如何访问NameNode和ResourceManager Web UI

Namenode Web用户界面。

使用的软件要求和约定

类别

使用的要求,约定或软件版本

系统

Ubuntu 18.04

软件

Hadoop 2.8.5, Oracle JDK 1.8

其他

以root身份或通过sudo命令以特权方式访问Linux系统。

约定

#  - 要求使用root权限直接以root用户或使用sudo命令执行给定的linux命令$ - 要求给定的linux命令作为常规非特权用户执行

添加Hadoop环境的用户

使用以下命令创建新用户和组:

# add user

linuxidc@linuxidc:~$ sudo adduser hadoop [sudo] linuxidc 的密码: 正在添加用户"hadoop"... 正在添加新组"hadoop" (1001)... 正在添加新用户"hadoop" (1001) 到组"hadoop"... 创建主目录"/home/hadoop"... 正在从"/etc/skel"复制文件... 输入新的 UNIX 密码: 重新输入新的 UNIX 密码: passwd:已成功更新密码 正在改变 hadoop 的用户信息 请输入新值,或直接敲回车键以使用默认值  全名 []: Hadoop linuxidc  房间号码 []:  工作电话 []:  家庭电话 []:  其它 []: 这些信息是否正确? [Y/n] Y

为Hadoop添加新用户。

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解
在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

安装和配置Oracle JDK

下载Java归档文件并解压缩/ opt目录下。

# cd /opt # tar -xzvf jdk-8u192-linux-x64.tar.gz

或者

linuxidc@linuxidc:~/下载$ sudo tar -xzvf jdk-8u192-linux-x64.tar.gz -C /opt

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解
在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

要将JDK 1.8 Update 192设置为默认JVM,我们将使用以下命令:

linuxidc@linuxidc:~ sudo update-alternatives --install /usr/bin/java java /opt/jdk1.8.0_192/bin/java 100[sudo] linuxidc 的密码: linuxidc@linuxidc:~ sudo update-alternatives --install /usr/bin/javac javac /opt/jdk1.8.0_192/bin/javac 100

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解
在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

安装完成后验证java是否已成功配置,请运行以下命令:

linuxidc@linuxidc:~ update-alternatives --display javalinuxidc@linuxidc:~ update-alternatives --display javac

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解
在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

配置无密码SSH

使用以下命令安装Open SSH Server并打开SSH Client:

linuxidc@linuxidc:~$ sudo apt-get install openssh-server openssh-client

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解
在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

使用以下命令生成公钥和私钥对。 终端将提示输入文件名。 按ENTER键继续。 在该复制之后,公钥从id_rsa.pub到authorized_keys。

linuxidc@linuxidc:~$ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Created directory '/home/linuxidc/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/linuxidc/.ssh/id_rsa. Your public key has been saved in /home/linuxidc/.ssh/id_rsa.pub. The key fingerprint is: SHA256:oWz3NsiiLRMdJMg7KLgQSNYQdDvXcPEszzOrWsBI3mI linuxidc@linuxidc The key's randomart image is: +---[RSA 2048]----+ |+B+o . o.        | |+ +.o = o        | |.o = + o.o      | |= = *...+.      | |o. E =+.S=      | |. . o.oo o+      | |    ...o.+      | |    oo.... .    | |    .+o.        | +----[SHA256]-----+

在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解
在 Linux Ubuntu 18.04/18.10上安装Hadoop图文详解

linuxidc@linuxidc:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

使用以下命令验证无密码ssh配置:

linuxidc@linuxidc:~$ ssh localhost

安装Hadoop并配置相关的xml文件

从Apache官方网站下载并解压缩Hadoop 2.8.5。

linuxidc@linuxidc:~$ tar -xzvf hadoop-2.8.5.tar.gz

设置环境变量

通过设置以下Hadoop环境变量,为Hadoop用户编辑bashrc:

nano ~/.bashrc

export HADOOP_HOME=/home/linuxidc/hadoop-2.8.5 export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

在当前登录会话中获取.bashrc。

$ source ~/.bashrc

编辑Hadoop安装目录中/etc/hadoop中的hadoop-env.sh文件,并进行以下更改并检查是否要更改任何其他配置。

nano /etc/hadoop/hadoop-env.sh

export JAVA_HOME=/opt/jdk1.8.0_192 export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/home/linuxidc/hadoop-2.8.5/etc/hadoop"}

更改core-site.xml文件中的配置

使用vim编辑core-site.xml,或者您可以使用任何编辑器。 该文件位于hadoop主目录下的/ etc / hadoop下,并添加以下条目。

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadooptmpdata</value> </property> </configuration>

另外,在hadoop主文件夹下创建目录。

$ mkdir hadooptmpdata

hdfs-site.xml文件中的配置更改

编辑位于同一位置的hdfs-site.xml,即hadoop安装目录中的/ etc / hadoop,并在hadoop用户主目录下创建Namenode / Datanode目录。

mkdir -p hdfs/namenode mkdir -p hdfs/datanode

<configuration> <property> <name>dfs.replication</name> <value>1</value> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>

配置更改mapred-site.xml文件

使用cp命令从mapred-site.xml.template复制mapred-site.xml,然后使用以下更改编辑位于hadoop instillation目录下的/etc/hadoop中的mapred-site.xml。

$ cp mapred-site.xml.template mapred-site.xml

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>

在yarn-site.xml配置文件中更改

使用以下条目编辑yarn-site.xml。

<configuration> <property> <name>mapreduceyarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>

启动Hadoop集群

首次使用之前格式化namenode。 由于HDFS用户运行以下命令来格式化Namenode。

$ hdfs namenode -format

格式化Namenode后,使用start-dfs.sh脚本启动HDFS。

要启动YARN服务,您需要执行纱线启动脚本,即start-yarn.sh

要验证所有Hadoop服务/守护程序是否已成功启动,您可以使用jps命令。

/opt/jdk1.8.0_192/bin/jps 20035 SecondaryNameNode 19782 DataNode 21671 Jps 20343 NodeManager 19625 NameNode 20187 ResourceManager

现在我们可以在命令下检查您可以使用的当前Hadoop版本:

$ hadoop version

或者

$ hdfs version

HDFS命令行界面

要访问HDFS并在DFS之上创建一些目录,您可以使用HDFS CLI。

hdfs dfs -mkdir /test hdfs dfs -mkdir /hadooponubuntu

从浏览器访问Namenode和YARN

您可以通过任何浏览器(如Google Chrome / Mozilla Firefox)访问NameNode的Web UI和YARN Resource Manager。

Namenode Web UI - http://<hadoop cluster hostname/IP address>:50070

YARN资源管理器(RM)Web界面将显示当前Hadoop集群上的所有正在运行的作业。

 资源管理器Web UI- http://<hadoop cluster hostname/IP address>:8088

总结

世界正在改变目前的运作方式,大数据在这一阶段发挥着重要作用。 Hadoop是一个框架,可以在处理大量数据时简化生活。 所有方面都有改进。 未来是令人兴奋的。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 添加Hadoop环境的用户
  • 安装和配置Oracle JDK
  • 配置无密码SSH
  • 安装Hadoop并配置相关的xml文件
  • 设置环境变量
  • 更改core-site.xml文件中的配置
  • hdfs-site.xml文件中的配置更改
  • 配置更改mapred-site.xml文件
  • 启动Hadoop集群
  • 总结
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档