Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式

红目香薰

发布于 2022-11-29 21:24:27

4450

文章被收录于专栏：CSDNToQQCodeCSDNToQQCode

🤗Hadoop第一章：认识Hadoop与创建伪分布式模式🤗

🤗Hadoop第一章：认识Hadoop与环境测试🤗

创建存储文件夹【/opt/soft与/opt/data】备用

上传安装包(放在opt下面，解压出来后修改名称为jdk方便操作)

进入到【soft】文件夹下解压安装包

为了操作方便，改一下文件夹名称：

效果：

将java的环境变量配置到【/etc/profile.d/hadoop-eco.sh】

继续编辑【vi /etc/profile.d/hadoop-eco.sh】文件：

执行脚本：

手动创建工作目录：

编写配置六个文件：

5、配置【hadoop/etc/hadoop/mapred-site.xml.template】文件

6、配置【yarn-site.xml】文件

简介：

Hadoop 是一个用 Java 语言实现的软件框架，运行在 Linux 生产平台上是非常理想的，同时也可以运行在其他平台上，如“Windows”等用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。

它主要有以下 5 个优点

高可靠性
高扩展性
高效性
高容错性
低成本

1、Java环境配置

下载包链接：

查询JDK是否安装

java
javac

如果安装移除即可

yum remove java -y

创建存储文件夹【/opt/soft与/opt/data】备用

cd /opt
mkdir soft
mkdir data

上传安装包(放在opt下面，解压出来后修改名称为jdk方便操作)

进入到【soft】文件夹下解压安装包

tar -zxvf jdk-8u161-linux-x64.tar.gz

解压后查询一下【ls】

为了操作方便，改一下文件夹名称：

mv jdk1.8.0_161 jdk

效果：

将java的环境变量配置到【/etc/profile.d/hadoop-eco.sh】

/etc/profile.d/hadoop-eco.sh

配置脚本文件，并通过【:wq】进行保存

JAVA_HOME=/opt/jdk
PATH=$JAVA_HOME/bin:$PATH

通过【cat】命令进行查验：

cat /etc/profile.d/hadoop-eco.sh

执行脚本

source /etc/profile.d/hadoop-eco.sh

java -version
java
javac

javac能执行，代表肯定配置好了。

2、配置SSH免登陆

ssh-keygen -t rsa

出现让输入就直接回车就行

将秘钥拷贝到本机

ssh-copy-id -i root@localhost

需要输入【yes】与【root密码】

ssh验证：

ssh 'root@localhost'

3、Hadoop安装

伪分布式与分布式模式的区别是：【NameNode】和【DataNode】分别运行在不同的计价器上，【NameNode】负责管理所有的【DataNode】。配置步骤： 1、上传Hadoop并解压配置【/etc/profile.d/hadoop-eco.sh】文件 2、修改2个【sh】文件，4个【xml】文件

3、通过【hdfs】启动，通过【start-dfs.sh】【start-yarn.sh】启动6个服务。(jps)查询

NameNode
SecondaryNameNode
NodeManager
DataNode
ResourceManager
Jps

4、demo测试

上传【Hadoop】的压缩包到opt下，并解压

tar -zxvf hadoop-2.7.3.tar.gz

为了操作方便，更换名称：

mv hadoop-2.7.3 hadoop

继续编辑【vi /etc/profile.d/hadoop-eco.sh】文件：

HADOOP_HOME=/opt/hadoop
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

执行脚本：

source /etc/profile.d/hadoop-eco.sh

手动创建工作目录：

mkdir -p /opt/hadoop-record/name
mkdir -p /opt/hadoop-record/secondary
mkdir -p /opt/hadoop-record/data
mkdir -p /opt/hadoop-record/tmp
ls
ls /opt/hadoop-record/

编写配置六个文件：

1、修改【hadoop/etc/hadoop/hadoop-env.sh 】(JAVA_HOME)

vi hadoop/etc/hadoop/hadoop-env.sh

2、修改【yarn-env.sh】文件

vi hadoop/etc/hadoop/yarn-env.sh

3、修改【core-site.xml】文件，在【configuration】节点下添加以下子节点信息

vi hadoop/etc/hadoop/core-site.xml

添加以下内容，复制的时候注意，先输入【i】再粘贴

	<!-- 指定HDFS的通讯地址 -->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>
	<!-- 指定Hadoop运行时产生文件的存储位置 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>file:///opt/hadoop-record/tmp</value>
	</property>

4、配置【hadoop/etc/hadoop/hdfs-site.xml】文件

vi hadoop/etc/hadoop/hdfs-site.xml

在【configuration】节点下添加以下内容:

	<!-- 数据备份数量 -->
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///opt/hadoop-record/name</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///opt/hadoop-record/data</value>
	</property>

5、配置【hadoop/etc/hadoop/mapred-site.xml.template】文件

由于需要的是xml文件，不是template文件，故而需要修改名称。

mv hadoop/etc/hadoop/mapred-site.xml.template hadoop/etc/hadoop/mapred-site.xml

修改成功

编写：

vi hadoop/etc/hadoop/mapred-site.xml

输入以下内容：

	<!-- mapreduce运行的平台，默认Local -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

6、配置【yarn-site.xml】文件

vi hadoop/etc/hadoop/yarn-site.xml

添加以下编码：

	<!-- resourcemanager所在机器 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>localhost</value>
	</property>
	<!-- 所需要的服务 -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>

效果如下：

3、启动Hadoop

格式化【namenode】

hdfs namenode -format

dfs启动

start-dfs.sh
jps

启动yarn

start-yarn.sh
jps

关闭防火墙【systemctl stop firewalld】

关闭防火墙后，使用本地主机浏览器输入：【http://192.168.52.132:50070/】【ip:50070】

4、编写测试文件：

cd /opt/data
vi hello

I HAVA A DREAM

通过【:wq】保存文件

上传测试文件到根目录：

hadoop fs -put hello /hello

cd /opt/hadoop/share/hadoop/mapreduce/
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /hello /out

运行完成：

hadoop fs -cat /out/part-r-00000

由于每个单词都写了一个，故而确认分析正确，再次修改hello文件进行测试

由于根目录的hello文件已存在，换成hello1即可

out这里也加上一个【1】

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /hello1 /out1

机器说是24个，咱们自己数一数，发现的确是【24】个。

实验完毕。

六个文件的下载链接：

https://download.csdn.net/download/feng8403000/85131919

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022-04-15，如有侵权请联系 cloudcommunity@tencent.com 删除

hadoop

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度