前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每周学点大数据 | No.64 配置Hadoop

每周学点大数据 | No.64 配置Hadoop

作者头像
灯塔大数据
发布2018-04-03 17:09:04
5850
发布2018-04-03 17:09:04
举报
文章被收录于专栏:灯塔大数据

NO.64

配置Hadoop

在开始使用Hadoop 之前,先要对Hadoop 进行配置。Hadoop 的配置分为单机模式、完全分布式、伪分布式三种。单机模式一般用于系统的调试,我们不去使用它。当我们要在机群上执行真正的大数据并行计算时,需要使用完全分布式模式才能让并行计算顺利完成。也只有在完全分布式模式下,才能真正地发挥并行计算的效果。

小可:那什么是伪分布式呢?

Mr. 王:我们知道,分布式系统是基于网络的多机计算系统。也就是说,至少要有两台计算机参与到任务的处理之中。但是当需要写程序和进行一些简单的实验时,手中只有一台计算机,这时我们就可以使用伪分布式模式。伪分布式模式和完全分布式模式的功能是一样的,但是区别在于,伪分布式仅有一个节点。虽然说它们的分布式机制是完全一样的,但是仅有一个节点在实质上又不能称作分布式系统,所以称为伪分布式。在伪分布式环境下,我们将Master和Slave 都放在一台计算机上,比较适合在只有一台计算机的情况下调试程序和做实验。

小可:嗯,这样的确比较方便,但是它无法发挥真正的并行计算的能力吧。

Mr. 王:是的,单机模式和伪分布式模式都不是真正意义上的并行计算,由于伪分布式和完全分布式的运行机制是完全一致的,所示这里我们先配置一个伪分布式环境,然后讲解如何使用它。如果抛开配置不谈的话,伪分布式和完全分布式在程序的设计和使用上是完全没有区别的,我会在最后介绍如何在3 台计算机上部署一个小型的完全分布Hadoop。在伪分布式环境下, 仅有的一个节点既是Master 也是Slave, 既是NameNode 也是DataNode,既是JobTracker 也是TaskTracker。

小可:JobTracker 和TaskTracker 又是什么呢?

Mr. 王:JobTracker 负责跟踪一个Job 的行为,TaskTracker 负责跟踪一个Task 的行为,我们交给MapReduce 的一个任务相当于一个Job,而其中的一些子任务称之为Task。

小可:嗯,我们仅有的一台机器承担了环境下的所有任务和操作。

Mr. 王:好,我们来具体看看如何配置一个伪分布式的Hadoop 环境。在完成了前面的解压缩步骤之后,进入Hadoop 的文件夹,首先找到conf 文件夹,修改里面的Hadoop-env.sh 文件,在其中添加JAVA_HOME 环境变量。

然后修改配置文件core-site.xml。

这一步我们编辑的是Hadoop 的配置文件,在这里要指定HDFS 的地址和端口号。然后修改MapReduce 的配置文件。

这里我们对MapReduce 的JobTracker 的地址和端口号进行配置。最后修改配置文件hdfs-site.xml。

这里我们修改的是HDFS 的配置文件,要确定运行模式为伪分布式模式。至此,伪分布式的Hadoop 配置就全部完成了。不过在使用之前,我们还要对HDFS 进行格式化。

小可:HDFS 还真像一块磁盘,在使用之前还要进行格式化。

Mr. 王:我们使用进入Hadoop 的文件夹,然后执行命令:

接下来就可以运行MapReduce 试一下了,我们可以用自动化脚本直接启动所有的进程。

小可:可是,我的屏幕上没有任何变化啊,我怎么知道它已经启动了呢?

Mr. 王:MapReduce 提供给我们两个可以跟踪HDFS 和MapReduce 的Web 页面,使用浏览器打开它们。一个是 http://localhost:50070,这是HDFS 的Web 页面;另一个是http://localhost:50030,这是MapReduce 的Web 页面,如果它们都可以顺利打开的话,则说明Hadoop 已经成功配置好了。在完成了Hadoop 的各种操作之后,我们还要结束关于Hadoop 的各种进程,释放由其占据的系统资源,可以使用命令:

下期精彩预告

经过学习,我们研究了配置Hadoop涉及到的一些具体问题。在下一期中,我们将进一步了解“Hello World”程序—— WordCount的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

文章作者:王宏志

文章编辑:秦革

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档