
🤗Hadoop第一章:认识Hadoop与创建伪分布式模式🤗
目录
创建存储文件夹【/opt/soft与/opt/data】备用
上传安装包(放在opt下面,解压出来后修改名称为jdk方便操作)
将java的环境变量配置到【/etc/profile.d/hadoop-eco.sh】
继续编辑【vi /etc/profile.d/hadoop-eco.sh】文件:
5、配置【hadoop/etc/hadoop/mapred-site.xml.template】文件
Hadoop 是一个用 Java 语言实现的软件框架,运行在 Linux 生产平台上是非常理想的,同时也可以运行在其他平台上,如“Windows”等 用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。
它主要有以下 5 个优点

java
javacyum remove java -ycd /opt
mkdir soft
mkdir data

tar -zxvf jdk-8u161-linux-x64.tar.gz解压后查询一下【ls】

mv jdk1.8.0_161 jdk
/etc/profile.d/hadoop-eco.shJAVA_HOME=/opt/jdk
PATH=$JAVA_HOME/bin:$PATH
cat /etc/profile.d/hadoop-eco.sh
source /etc/profile.d/hadoop-eco.sh
java -version
java
javac

ssh-keygen -t rsa出现让输入就直接回车就行

ssh-copy-id -i root@localhost
ssh 'root@localhost'
伪分布式与分布式模式的区别是:【NameNode】和【DataNode】分别运行在不同的计价器上,【NameNode】负责管理所有的【DataNode】。 配置步骤: 1、上传Hadoop并解压配置【/etc/profile.d/hadoop-eco.sh】文件 2、修改2个【sh】文件,4个【xml】文件

3、通过【hdfs】启动,通过【start-dfs.sh】【start-yarn.sh】启动6个服务。(jps)查询
4、demo测试
上传【Hadoop】的压缩包到opt下,并解压

tar -zxvf hadoop-2.7.3.tar.gz
mv hadoop-2.7.3 hadoop
HADOOP_HOME=/opt/hadoop
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
source /etc/profile.d/hadoop-eco.shmkdir -p /opt/hadoop-record/name
mkdir -p /opt/hadoop-record/secondary
mkdir -p /opt/hadoop-record/data
mkdir -p /opt/hadoop-record/tmp
ls
ls /opt/hadoop-record/
1、修改【hadoop/etc/hadoop/hadoop-env.sh 】(JAVA_HOME)
vi hadoop/etc/hadoop/hadoop-env.sh 
2、修改【yarn-env.sh】文件
vi hadoop/etc/hadoop/yarn-env.sh
3、 修改【core-site.xml】文件,在【configuration】节点下添加以下子节点信息
vi hadoop/etc/hadoop/core-site.xml
添加以下内容,复制的时候注意,先输入【i】再粘贴
<!-- 指定HDFS的通讯地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储位置 -->
<property>
<name>hadoop.tmp.dir</name>
<value>file:///opt/hadoop-record/tmp</value>
</property>
4、配置【hadoop/etc/hadoop/hdfs-site.xml】文件
vi hadoop/etc/hadoop/hdfs-site.xml
在【configuration】节点下添加以下内容:
<!-- 数据备份数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///opt/hadoop-record/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///opt/hadoop-record/data</value>
</property>
由于需要的是xml文件,不是template文件,故而需要修改名称。
mv hadoop/etc/hadoop/mapred-site.xml.template hadoop/etc/hadoop/mapred-site.xml修改成功

编写:
vi hadoop/etc/hadoop/mapred-site.xml
输入以下内容:
<!-- mapreduce运行的平台,默认Local -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
vi hadoop/etc/hadoop/yarn-site.xml
添加以下编码:
<!-- resourcemanager所在机器 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<!-- 所需要的服务 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>效果如下:

格式化【namenode】
hdfs namenode -format
start-dfs.sh
jps
start-yarn.sh
jps
关闭防火墙【systemctl stop firewalld】
关闭防火墙后,使用本地主机浏览器输入:【http://192.168.52.132:50070/】 【ip:50070】

cd /opt/data
vi helloI HAVA A DREAM
通过【:wq】保存文件
上传测试文件到根目录:
hadoop fs -put hello /hello
cd /opt/hadoop/share/hadoop/mapreduce/
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /hello /out

运行完成:
hadoop fs -cat /out/part-r-00000
由于每个单词都写了一个,故而确认分析正确,再次修改hello文件进行测试

由于根目录的hello文件已存在,换成hello1即可

out这里也加上一个【1】
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /hello1 /out1机器说是24个,咱们自己数一数,发现的确是【24】个。

实验完毕。