每周学点大数据 | No.63 Hadoop MapReduce 实践—环境搭建(下)

NO.63

 Hadoop MapReduce 实践—环境搭建(下)

Mr. 王:vim 是Linux 下开源的文本编辑器,它的功能非常强大,受到广大编程爱好者的欢迎,非常适合用来编写程序代码等,它提供了自动的代码高亮功能。如果你经常在Linux 下写程序的话,则可以尝试学习文本编辑器的使用,在文本编辑器中最著名的是vim 和emacs,它们都是非常不错的文本编辑器。好了,打开.bashrc 之后,可以对其进行修改,注意不要破坏其他部分。

在文件的尾部添加:

其中,# 号后面的内容都是注释,是为了方便我们以后找到它。后面的三行方便系统找到Java 运行环境、开发环境和工程,其中包含的冒号是分隔符,

注意不要丢掉CLASSPATH 的第一个“.”,否则容易出现找不到类的错误。

接下来输入:

终端会返回类似下面的信息:

这是Java 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 运行环境已经可以正常使用了。

然后输入:

终端会返回javac 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 的编译器已经可以正常使用了。网络上关于Java 的安装教程是非常多的,如果在安装中和环境变量配置中出现问题,在网络上的一些博客和论坛中可以找到答案。

小可在自己的计算机上敲了一会儿,看着屏幕上输出的版本信息,说:嗯,我都已经配置。好了,现在就可以安装Hadoop 了吧。

Mr. 王:别急,我们还要安装一个SSH。SSH 即安全外壳协议的缩写,是为了远程登录和

网络服务的一个安全通信协议。

小可:这是因为Hadoop MapReduce 是提供多台计算机并行计算的平台,所以需要一个网络通信安全协议吧?

Mr. 王:是的。SSH 的安装并不是必要的,但是一般使用它来进行网络连接服务的安全代理;否则,当操作一批计算机时,每次进行连接都要输入目标机器的密码,这样使用起来非常不方便,我们可以用SSH 协议来避免这个麻烦。下面是安装SSH 的命令,前面的apt-get install 也是在Ubuntu 下安装很多软件的方法。

安装好之后,我们用SSH 来建立一个公密钥对,公密钥对相当于一组钥匙和锁头的关系。

为了方便寻找,建议路径为 ~/.ssh/id_dsa。然后将这个公钥放到授权的公钥文件中。我们复制~/.ssh/id_dsa.pub 里面的全部内容,将其放入authorized_keys 中。

现在执行命令:

小可:返回了一些登录信息。

Mr. 王:这说明,我们已经可以用SSH 协议免密码登录到本机了。当我们用Hadoop 平台操作大量的计算机时,一般要将这些计算机设为免密码登录。

小可:现在是不是可以安装Hadoop 了?

Mr. 王:现在下载Hadoop 的压缩包,其名字一般是Hadoop 和它的版本号,比如Hadoop-1.0.1.tar.gz,我们将其放在用户目录下,然后将其解压缩成一个文件夹。

首先我们登录Hadoop 的官方网站:https://hadoop.apach.org。

Hadoop 的标识是一个非常可爱的小象加上蓝色的Hadoop 字样。在这里我们可以找到

Hadoop 的很多发行版本和资料。

目前Hadoop 包含以下几个基本的组成部分。

● Hadoop Common :这是Hadoop 运行的依赖基础,是一些用于支持Hadoop 运行的各种底层模块。

● HDFS :这就是我们前面提到的Hadoop 分布式文件系统。为了能让文件分散存储在多台

计算机组成的机群上,我们需要一种机制使得所有计算机的磁盘可以有机地结合成一个

可以存放大量文件的文件系统,在Hadoop 中这个文件系统就是HDFS。

● YARN :带有YARN 的Hadoop 一般也被称作新一代的Hadoop,或者YARN。其实YARN 是一个机群资源管理系统和任务表编排的框架,它的出现使得Hadoop 的运行效率和稳定性得到了很大的提升。

● MapReduce :这就是我们熟悉的MapReduce,也就是使用Hadoop 进行并行数据处理的核心框架。

另外,Hadoop 也提供了大量的适用于各种不同任务的组件包和工具包。

● Hive :基于Hadoop 的数据仓库工具。

● Mahout :一个用于机器学习、数据挖掘的库。

● HBase :分布式数据库系统。

● Chukwa :用于监控大型分布式系统的数据收集系统。

● Pig :为用户提供多种接口的大数据分析平台。

● ZooKeeper :一个分布式的应用程序协调服务。

● 还有我们在后面要讲到的Spark。

Mr. 王:好了,我们回到Hadoop 上来。首先要下载一个Hadoop 的组件包。在首页中点击Release 或者Download 就可以找到很多Hadoop 版本。对于我们使用的级别,整体来讲差别不大。来到Hadoop 的下载页面,可以很容易地找到Hadoop 发布版本

选择下载之后,Apache 会向我们推荐镜像位置,选择推荐的镜像位置就可以了。下载之后,将其解压缩到一个我们能够找到的目录就可以了。

小可:嗯,我已经解压缩好了!

文章作者:王宏志

文章编辑:秦革

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2017-11-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏别先生

一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google...

28250
来自专栏java架构师

Hadoop总结篇之二--yarn的概况

在弄清楚yarn是什么之前,先来看一下MRv1。 它的由编程模型+数据处理引擎(map/reduceTask)+运行时环境组成(JobTracker/TaskT...

365110
来自专栏我是攻城师

Spark Streaming如何使用checkpoint容错

62770
来自专栏Hadoop实操

如何在CDH集群中加入异构设备

在部署CDH集群或者扩容时,会遇到服务器配置不同(CPU、Memory、DISK等)的情况,那我们应该如何加入异构设备,并进行差异化的配置呢?本篇文章主要讲述如...

52990
来自专栏积累沉淀

Hadoop五个进程的作用和联系

1.NameNode:     相当于一个领导者,负责调度 ,比如你需要存一个1280m的文件     如果按照128m分块 那么namenode就会把这1...

20460
来自专栏企鹅号快讯

大数据干货系列(二)-HDFS1.0

本文共计876字,预计阅读时长五分钟 一、本质 HDFS(Hadoop Distributed File System)是一种适合运行在通用硬件上的分布式文件系...

27370
来自专栏程序员笔录

Spark 开发环境搭建

本文是对初始接触 Spark 开发的入门介绍,说明如何搭建一个比较完整的 Spark 开发环境,如何开始应用相关工具。文中如有错误或者不当之处,敬请指正。

1.9K10
来自专栏LhWorld哥陪你聊算法

【Spark篇】---Spark资源调度和任务调度

Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要。

21540
来自专栏行者悟空

Hadoop之HDFS概念与体系结构

36550
来自专栏LanceToBigData

Hadoop(四)HDFS集群详解

前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   H...

54190

扫码关注云+社区

领取腾讯云代金券