前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每周学点大数据 | No.63 Hadoop MapReduce 实践—环境搭建(下)

每周学点大数据 | No.63 Hadoop MapReduce 实践—环境搭建(下)

作者头像
灯塔大数据
发布2018-04-04 11:24:25
5360
发布2018-04-04 11:24:25
举报

NO.63

 Hadoop MapReduce 实践—环境搭建(下)

Mr. 王:vim 是Linux 下开源的文本编辑器,它的功能非常强大,受到广大编程爱好者的欢迎,非常适合用来编写程序代码等,它提供了自动的代码高亮功能。如果你经常在Linux 下写程序的话,则可以尝试学习文本编辑器的使用,在文本编辑器中最著名的是vim 和emacs,它们都是非常不错的文本编辑器。好了,打开.bashrc 之后,可以对其进行修改,注意不要破坏其他部分。

在文件的尾部添加:

其中,# 号后面的内容都是注释,是为了方便我们以后找到它。后面的三行方便系统找到Java 运行环境、开发环境和工程,其中包含的冒号是分隔符,

注意不要丢掉CLASSPATH 的第一个“.”,否则容易出现找不到类的错误。

接下来输入:

终端会返回类似下面的信息:

这是Java 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 运行环境已经可以正常使用了。

然后输入:

终端会返回javac 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 的编译器已经可以正常使用了。网络上关于Java 的安装教程是非常多的,如果在安装中和环境变量配置中出现问题,在网络上的一些博客和论坛中可以找到答案。

小可在自己的计算机上敲了一会儿,看着屏幕上输出的版本信息,说:嗯,我都已经配置。好了,现在就可以安装Hadoop 了吧。

Mr. 王:别急,我们还要安装一个SSH。SSH 即安全外壳协议的缩写,是为了远程登录和

网络服务的一个安全通信协议。

小可:这是因为Hadoop MapReduce 是提供多台计算机并行计算的平台,所以需要一个网络通信安全协议吧?

Mr. 王:是的。SSH 的安装并不是必要的,但是一般使用它来进行网络连接服务的安全代理;否则,当操作一批计算机时,每次进行连接都要输入目标机器的密码,这样使用起来非常不方便,我们可以用SSH 协议来避免这个麻烦。下面是安装SSH 的命令,前面的apt-get install 也是在Ubuntu 下安装很多软件的方法。

安装好之后,我们用SSH 来建立一个公密钥对,公密钥对相当于一组钥匙和锁头的关系。

为了方便寻找,建议路径为 ~/.ssh/id_dsa。然后将这个公钥放到授权的公钥文件中。我们复制~/.ssh/id_dsa.pub 里面的全部内容,将其放入authorized_keys 中。

现在执行命令:

小可:返回了一些登录信息。

Mr. 王:这说明,我们已经可以用SSH 协议免密码登录到本机了。当我们用Hadoop 平台操作大量的计算机时,一般要将这些计算机设为免密码登录。

小可:现在是不是可以安装Hadoop 了?

Mr. 王:现在下载Hadoop 的压缩包,其名字一般是Hadoop 和它的版本号,比如Hadoop-1.0.1.tar.gz,我们将其放在用户目录下,然后将其解压缩成一个文件夹。

首先我们登录Hadoop 的官方网站:https://hadoop.apach.org。

Hadoop 的标识是一个非常可爱的小象加上蓝色的Hadoop 字样。在这里我们可以找到

Hadoop 的很多发行版本和资料。

目前Hadoop 包含以下几个基本的组成部分。

● Hadoop Common :这是Hadoop 运行的依赖基础,是一些用于支持Hadoop 运行的各种底层模块。

● HDFS :这就是我们前面提到的Hadoop 分布式文件系统。为了能让文件分散存储在多台

计算机组成的机群上,我们需要一种机制使得所有计算机的磁盘可以有机地结合成一个

可以存放大量文件的文件系统,在Hadoop 中这个文件系统就是HDFS。

● YARN :带有YARN 的Hadoop 一般也被称作新一代的Hadoop,或者YARN。其实YARN 是一个机群资源管理系统和任务表编排的框架,它的出现使得Hadoop 的运行效率和稳定性得到了很大的提升。

● MapReduce :这就是我们熟悉的MapReduce,也就是使用Hadoop 进行并行数据处理的核心框架。

另外,Hadoop 也提供了大量的适用于各种不同任务的组件包和工具包。

● Hive :基于Hadoop 的数据仓库工具。

● Mahout :一个用于机器学习、数据挖掘的库。

● HBase :分布式数据库系统。

● Chukwa :用于监控大型分布式系统的数据收集系统。

● Pig :为用户提供多种接口的大数据分析平台。

● ZooKeeper :一个分布式的应用程序协调服务。

● 还有我们在后面要讲到的Spark。

Mr. 王:好了,我们回到Hadoop 上来。首先要下载一个Hadoop 的组件包。在首页中点击Release 或者Download 就可以找到很多Hadoop 版本。对于我们使用的级别,整体来讲差别不大。来到Hadoop 的下载页面,可以很容易地找到Hadoop 发布版本

选择下载之后,Apache 会向我们推荐镜像位置,选择推荐的镜像位置就可以了。下载之后,将其解压缩到一个我们能够找到的目录就可以了。

小可:嗯,我已经解压缩好了!

文章作者:王宏志

文章编辑:秦革

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 5G融智未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档