前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hadoop | spark | hadoop的搭建和spark 的搭建

hadoop | spark | hadoop的搭建和spark 的搭建

作者头像
努力在北京混出人样
发布2019-02-18 16:34:49
6990
发布2019-02-18 16:34:49
举报

为了学习hadoopspark,开始了搭建这两的心酸路。下面来介绍下我是如何搭建的,大家可以模仿下,若是有遇到问题,请留言哟。

之前搭建成功过,后来冒出问题,一直没解决掉。这次算是搞定了。

hadoop 搭建

版本hadoop-2.7.1.tar.gz,去官网下载就可以。解压到ubuntu下hadoop用户的目录下。

第一步、配置java环境 去http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载合适你电脑系统的版本,解压到usr下。

按照这篇文章来配置java环境http://jingyan.baidu.com/article/48a42057f1f0a4a925250464.html ,并检测是否安装成功。

第二步、hadoop配置 修改hadoop解压文件下的etc/hadoop下的xml配置文件,如果不存在,请自己创建。(以我的为例)

  • hadoop-env.sh 修改配置,增加
 export JAVA_HOME=/usr/jdk
  • Slaves文件修改配置 localhost (写入)
  • mapred-site.xml

下面的localhost要与Slaves的对应一致。

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
       <name>mapreduce.framework.name</name>
       <value>localhost</value>
    </property>
</configuration>
  • core-site.xml

9001是我开放的端口号,你可以自己设置

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9001</value>
   </property>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>
  • yarn-site.xml
<configuration>
  <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
  </property>

</configuration>

第三步、安装ssh 安装

 sudo apt-get install openssh-server  

启动ssh

/etc/init.d/ssh start

关闭防火墙

sudo ufw disable 

设置免密登录 参考博文http://www.cnblogs.com/LazyJoJo/p/6413640.html

第四步、启动服务 先切换到hadoop目录下 - 格式化HDFS

bin/hadoop namenode -format
  • 启动HDFS
sbin/start-dfs.sh
  • 启动YARN
sbin/start-yarn.sh

第四步、检测是否配置成功

/usr/jdk/bin/jps

9888 SecondaryNameNode 10437 NameNode 7958 ResourceManager 10582 DataNode 10982 Jps 10135 NodeManager

若是类似上述的结果,表明启动成功了。也就安装成功了。

注意:在windows下用虚拟机来安装,需要做进一步修改,不然下一次启动电脑时,所做的都会被还原掉。

在core-site.xml中增加以下两个配置:

<property>
   <name>dfs.namenode.name.dir</name>
   <value>/home/hadoop/hadoop/dfs/name</value>
</property>
</property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop/hadoop/dfs/data</value>
</property>

若是不配置,默认为tmp下,每次启动都会重新一切,哈哈。安装这样来配置后,就不会出现问题了。

spark搭建

下载预编译的包,http://spark.apache.org/downloads.html ,解压到hadoop用户目录下。 先切换到spark目录下。我下载的是spark 2.1-hadoop2.7.1 这个版本的。

第一步,在tmp下建立文件夹hive

第二步、开始用起来

  • 调用Python接口
./bin/pyspark

没有报错说明成功了。

  • 调用scala接口
./bin/spark-shell

没有报错说明成功了。

http://blog.csdn.net/xxzhangx/article/details/55258263 这篇博客中的能运行,说明装好啦!

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年03月04日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • hadoop 搭建
  • spark搭建
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档