开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >每周学点大数据 | No.63 Hadoop MapReduce 实践—环境搭建（下）

每周学点大数据 | No.63 Hadoop MapReduce 实践—环境搭建（下）

灯塔大数据

发布于 2018-04-04 11:24:25

5500

发布于 2018-04-04 11:24:25

举报

文章被收录于专栏：灯塔大数据

NO.63

　Hadoop MapReduce 实践—环境搭建（下）

Mr. 王：vim 是Linux 下开源的文本编辑器，它的功能非常强大，受到广大编程爱好者的欢迎，非常适合用来编写程序代码等，它提供了自动的代码高亮功能。如果你经常在Linux 下写程序的话，则可以尝试学习文本编辑器的使用，在文本编辑器中最著名的是vim 和emacs，它们都是非常不错的文本编辑器。好了，打开.bashrc 之后，可以对其进行修改，注意不要破坏其他部分。

在文件的尾部添加：

其中，# 号后面的内容都是注释，是为了方便我们以后找到它。后面的三行方便系统找到Java 运行环境、开发环境和工程，其中包含的冒号是分隔符，

注意不要丢掉CLASSPATH 的第一个“.”，否则容易出现找不到类的错误。

接下来输入：

终端会返回类似下面的信息：

这是Java 的版本信息。如果终端能够正常地输出版本信息的话，则说明Java 运行环境已经可以正常使用了。

然后输入：

终端会返回javac 的版本信息。如果终端能够正常地输出版本信息的话，则说明Java 的编译器已经可以正常使用了。网络上关于Java 的安装教程是非常多的，如果在安装中和环境变量配置中出现问题，在网络上的一些博客和论坛中可以找到答案。

小可在自己的计算机上敲了一会儿，看着屏幕上输出的版本信息，说：嗯，我都已经配置。好了，现在就可以安装Hadoop 了吧。

Mr. 王：别急，我们还要安装一个SSH。SSH 即安全外壳协议的缩写，是为了远程登录和

网络服务的一个安全通信协议。

小可：这是因为Hadoop MapReduce 是提供多台计算机并行计算的平台，所以需要一个网络通信安全协议吧？

Mr. 王：是的。SSH 的安装并不是必要的，但是一般使用它来进行网络连接服务的安全代理；否则，当操作一批计算机时，每次进行连接都要输入目标机器的密码，这样使用起来非常不方便，我们可以用SSH 协议来避免这个麻烦。下面是安装SSH 的命令，前面的apt-get install 也是在Ubuntu 下安装很多软件的方法。

安装好之后，我们用SSH 来建立一个公密钥对，公密钥对相当于一组钥匙和锁头的关系。

为了方便寻找，建议路径为 ~/.ssh/id_dsa。然后将这个公钥放到授权的公钥文件中。我们复制~/.ssh/id_dsa.pub 里面的全部内容，将其放入authorized_keys 中。

现在执行命令：

小可：返回了一些登录信息。

Mr. 王：这说明，我们已经可以用SSH 协议免密码登录到本机了。当我们用Hadoop 平台操作大量的计算机时，一般要将这些计算机设为免密码登录。

小可：现在是不是可以安装Hadoop 了？

Mr. 王：现在下载Hadoop 的压缩包，其名字一般是Hadoop 和它的版本号，比如Hadoop-1.0.1.tar.gz，我们将其放在用户目录下，然后将其解压缩成一个文件夹。

首先我们登录Hadoop 的官方网站：https://hadoop.apach.org。

Hadoop 的标识是一个非常可爱的小象加上蓝色的Hadoop 字样。在这里我们可以找到

Hadoop 的很多发行版本和资料。

目前Hadoop 包含以下几个基本的组成部分。

● Hadoop Common ：这是Hadoop 运行的依赖基础，是一些用于支持Hadoop 运行的各种底层模块。

● HDFS ：这就是我们前面提到的Hadoop 分布式文件系统。为了能让文件分散存储在多台

计算机组成的机群上，我们需要一种机制使得所有计算机的磁盘可以有机地结合成一个

可以存放大量文件的文件系统，在Hadoop 中这个文件系统就是HDFS。

● YARN ：带有YARN 的Hadoop 一般也被称作新一代的Hadoop，或者YARN。其实YARN 是一个机群资源管理系统和任务表编排的框架，它的出现使得Hadoop 的运行效率和稳定性得到了很大的提升。

● MapReduce ：这就是我们熟悉的MapReduce，也就是使用Hadoop 进行并行数据处理的核心框架。

另外，Hadoop 也提供了大量的适用于各种不同任务的组件包和工具包。

● Hive ：基于Hadoop 的数据仓库工具。

● Mahout ：一个用于机器学习、数据挖掘的库。

● HBase ：分布式数据库系统。

● Chukwa ：用于监控大型分布式系统的数据收集系统。

● Pig ：为用户提供多种接口的大数据分析平台。

● ZooKeeper ：一个分布式的应用程序协调服务。

● 还有我们在后面要讲到的Spark。

Mr. 王：好了，我们回到Hadoop 上来。首先要下载一个Hadoop 的组件包。在首页中点击Release 或者Download 就可以找到很多Hadoop 版本。对于我们使用的级别，整体来讲差别不大。来到Hadoop 的下载页面，可以很容易地找到Hadoop 发布版本

选择下载之后，Apache 会向我们推荐镜像位置，选择推荐的镜像位置就可以了。下载之后，将其解压缩到一个我们能够找到的目录就可以了。

小可：嗯，我已经解压缩好了！

文章作者：王宏志

文章编辑：秦革

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 5G融智未来微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

云数据库 HBase