NO.63
Hadoop MapReduce 实践—环境搭建(下)
Mr. 王:vim 是Linux 下开源的文本编辑器,它的功能非常强大,受到广大编程爱好者的欢迎,非常适合用来编写程序代码等,它提供了自动的代码高亮功能。如果你经常在Linux 下写程序的话,则可以尝试学习文本编辑器的使用,在文本编辑器中最著名的是vim 和emacs,它们都是非常不错的文本编辑器。好了,打开.bashrc 之后,可以对其进行修改,注意不要破坏其他部分。
在文件的尾部添加:
其中,# 号后面的内容都是注释,是为了方便我们以后找到它。后面的三行方便系统找到Java 运行环境、开发环境和工程,其中包含的冒号是分隔符,
注意不要丢掉CLASSPATH 的第一个“.”,否则容易出现找不到类的错误。
接下来输入:
终端会返回类似下面的信息:
这是Java 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 运行环境已经可以正常使用了。
然后输入:
终端会返回javac 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 的编译器已经可以正常使用了。网络上关于Java 的安装教程是非常多的,如果在安装中和环境变量配置中出现问题,在网络上的一些博客和论坛中可以找到答案。
小可在自己的计算机上敲了一会儿,看着屏幕上输出的版本信息,说:嗯,我都已经配置。好了,现在就可以安装Hadoop 了吧。
Mr. 王:别急,我们还要安装一个SSH。SSH 即安全外壳协议的缩写,是为了远程登录和
网络服务的一个安全通信协议。
小可:这是因为Hadoop MapReduce 是提供多台计算机并行计算的平台,所以需要一个网络通信安全协议吧?
Mr. 王:是的。SSH 的安装并不是必要的,但是一般使用它来进行网络连接服务的安全代理;否则,当操作一批计算机时,每次进行连接都要输入目标机器的密码,这样使用起来非常不方便,我们可以用SSH 协议来避免这个麻烦。下面是安装SSH 的命令,前面的apt-get install 也是在Ubuntu 下安装很多软件的方法。
安装好之后,我们用SSH 来建立一个公密钥对,公密钥对相当于一组钥匙和锁头的关系。
为了方便寻找,建议路径为 ~/.ssh/id_dsa。然后将这个公钥放到授权的公钥文件中。我们复制~/.ssh/id_dsa.pub 里面的全部内容,将其放入authorized_keys 中。
现在执行命令:
小可:返回了一些登录信息。
Mr. 王:这说明,我们已经可以用SSH 协议免密码登录到本机了。当我们用Hadoop 平台操作大量的计算机时,一般要将这些计算机设为免密码登录。
小可:现在是不是可以安装Hadoop 了?
Mr. 王:现在下载Hadoop 的压缩包,其名字一般是Hadoop 和它的版本号,比如Hadoop-1.0.1.tar.gz,我们将其放在用户目录下,然后将其解压缩成一个文件夹。
首先我们登录Hadoop 的官方网站:https://hadoop.apach.org。
Hadoop 的标识是一个非常可爱的小象加上蓝色的Hadoop 字样。在这里我们可以找到
Hadoop 的很多发行版本和资料。
目前Hadoop 包含以下几个基本的组成部分。
● Hadoop Common :这是Hadoop 运行的依赖基础,是一些用于支持Hadoop 运行的各种底层模块。
● HDFS :这就是我们前面提到的Hadoop 分布式文件系统。为了能让文件分散存储在多台
计算机组成的机群上,我们需要一种机制使得所有计算机的磁盘可以有机地结合成一个
可以存放大量文件的文件系统,在Hadoop 中这个文件系统就是HDFS。
● YARN :带有YARN 的Hadoop 一般也被称作新一代的Hadoop,或者YARN。其实YARN 是一个机群资源管理系统和任务表编排的框架,它的出现使得Hadoop 的运行效率和稳定性得到了很大的提升。
● MapReduce :这就是我们熟悉的MapReduce,也就是使用Hadoop 进行并行数据处理的核心框架。
另外,Hadoop 也提供了大量的适用于各种不同任务的组件包和工具包。
● Hive :基于Hadoop 的数据仓库工具。
● Mahout :一个用于机器学习、数据挖掘的库。
● HBase :分布式数据库系统。
● Chukwa :用于监控大型分布式系统的数据收集系统。
● Pig :为用户提供多种接口的大数据分析平台。
● ZooKeeper :一个分布式的应用程序协调服务。
● 还有我们在后面要讲到的Spark。
Mr. 王:好了,我们回到Hadoop 上来。首先要下载一个Hadoop 的组件包。在首页中点击Release 或者Download 就可以找到很多Hadoop 版本。对于我们使用的级别,整体来讲差别不大。来到Hadoop 的下载页面,可以很容易地找到Hadoop 发布版本
选择下载之后,Apache 会向我们推荐镜像位置,选择推荐的镜像位置就可以了。下载之后,将其解压缩到一个我们能够找到的目录就可以了。
小可:嗯,我已经解压缩好了!
文章作者:王宏志
文章编辑:秦革