前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据hadoop环境搭建

大数据hadoop环境搭建

原创
作者头像
软件架构师Michael
发布2022-03-24 09:22:58
4760
发布2022-03-24 09:22:58
举报
文章被收录于专栏:软件工程师Michael

一.前置工作

1.准备好centos虚拟机,安装好yum,vim

2.准备编译后的安装包:

apache-maven-3.3.9-bin.tar.gz

elasticsearch-6.3.0.tar.gz

elasticsearch-spark-20_2.11-6.3.0.jar

gradle-4.5-all.zip

hadoop-2.6.0-cdh5.7.0.tar.gz

jdk-8u91-linux-x64.tar.gz

kibana-6.3.0-linux-x86_64.tar.gz

nginx-1.11.6.tar.gz

Python-3.6.8.tar.xz

scala-2.11.8.tgz

spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz

二.上传安装包

1.安装lrzsz

sudo yum install lrzsz

2.centos上创建文件夹software,用于存放安装包,rz命令上传文件

mkdir software

三.解压安装包,配置环境变量

1.创建文件夹app,用于存放解压后的文件

tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app

2.配置环境变量

vim ~/.bash_profile

注意配置顺序依次为:java,scala,hadoop,具体见如下截图

source ~/.bash_profile --------source后环境变量才会起作用

除了Hadoop的配置稍微繁琐意外,其余的配置都基本相同。

3.修改hadoop配置

目录:/etc/hadoop

vim hadoop-env.sh 配置JAVA_HOME

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91

vim core-site.xml 配置namenode

[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml

#(1)fs.defaultFS参数配置的是HDFS的地址。

fs.defaultFS

hdfs://bigdata-senior01.chybinmy.com:8020

#(2)hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。

#创建临时目录:

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp

#将临时目录的所有者修改为hadoop

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tm

#修改hadoop.tmp.dir

hadoop.tmp.dir

/opt/data/tmp

vim hdfs-site.xml 配置dfs的namenode和datanode

<name>dfs.replication</name>

<value>1</value>

mapred-site.xml配置

<name>fs.default.name</name>

<value>hdfs://hadoop000:8020</value>

v

im yarn-site.xml

#配置mapred-site.xml,默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

[hadoop@bigdata-senior01 hadoop-2.5.0]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

#添加配置如下:

<name>mapreduce.framework.name</name>

<value>yarn</value>

#指定mapreduce运行在yarn框架上。

4.启动hadoop, 格式化(非常关键的一步)

hadoop bin目录下执行命令:./hadoop namenode -format

运行结果如下:

Hadoop格式化结果
Hadoop格式化结果

Hadoop sbin目录下执行命令:./start-dfs.sh (非常关机的一步)

5.执行hadoop,查看hadoop,至此hadoop已经安装成功

hadoop验证
hadoop验证

6.浏览器上查看hadoop管理页面(hdfs读写文件的过程此处省略)

hadoop管理页面
hadoop管理页面
Hadoop数据呈现
Hadoop数据呈现

小结】:

hadoop运行环境的搭建设计的安装包、环境变量、配置文件比较多,稍微一不留神就容易踩坑,一路上需要多加小心才行。好事多磨总能出结果。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档