DKHadoop安装的环境准备介绍

前几天去参加了一个线下的聚会,参加聚会的基本都是从事互联网工作的。会上有人提到了区块链,从而引发了一场关于大数据方面的探讨。我也是从去年才正式接触大数据,一直在学习hadoop。相信接触过hadoop的人都知道,。单独搭建hadoop里每个组建都需要运行环境、修改配置文件、测试等过程,每个组件几乎都有坑,尤其是让新手甚是苦恼。此前有在微博上与一些博友了解过他们的配置过程,有的配置了好几天愣是没成功。

Hadoop运行环境配置的坑只有走过的人才懂,不过发现了一个比较有意思的国产hadoop发行版——大快的DKH发行版DKHadoop。DKHadoop将开源社区里多种常用组建包括:HDFS,Hbase,Storm,Flume,Kafka,Mahout,ES等都集成到了这一个平台里,所以整个运行环境的配置安装就大大被简化了。

我把此前安装的过程整理了一下分享给感兴趣的朋友,主要分为:准备阶段、服务器操作系统配置、DKH系统安装、常见问题解决方法四个部门。由于文章偏于较长,本篇重点为大家分享第一部分——准备阶段。

第一部分:准备工作

1、 大数据平台所需配置:

(1) 系统:CentOS 6.5 64位(需默认安装Desktop)

(2) CPU :intel E3及以上。

(3) 内存:建议最小8G,用图计算建议32G,推荐128G。

(4) 硬盘:256G以上,推荐使用固态硬盘。

(5) 系统分区要求: 如无特殊需求,除swap分区外,可将剩余空间全部分配 到/ (根) 分区

(6) 网络要求:如无特殊情况,尽量可以接入外网。

(7) 至少三台服务器(三台服务器名字任意起,密码须一致)。

(8)安装使用root用户作为默认用户

2、 远程上传和远程连接工具:

(1) 若直接使用个人PC开启的虚拟机作为服务器的基础,直接拷贝到虚拟机下即可。

(2) 若是使用机房服务器作平台搭建的服务器,如若不能直接接触到服务器,则需要使用远程工具连接并发送安装包。

第一部分的主要是安装前的准备工作,除了做好上述这些,还需要去下载一下DKH安装版本。需要的朋友也可以搜索主要一下,如果没有找到可以留言给我。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户2442861的专栏

大数据并发问题

http://blog.csdn.net/u014421556/article/details/50964505

2250
来自专栏非著名程序员

绝对干货:供个人开发者赚钱免费使用的一些好的API接口

不久前,我写了一篇文章,名为《科普技术贴:个人开发者的那些赚钱方式》,讲了一些个人开发者接私活和自己做软件加广告的一些科普知识。可是做软件,需要服务器,需要后台...

4159
来自专栏程序员的知识天地

为何Node.js 能成为 Web 应用开发最佳选择?

一项颠覆性的技术进入技术市场总会带来一阵震惊,但随之而来往往是被放弃。然而,Node.js 当然不是这样的情况,它是一个开源的、跨平台的基于 Chrome 的 ...

1443
来自专栏顶级程序员

号称“开发者神器”的GitHub,到底该怎么用?

源 / 开源最前线 GitHub是一个拥有数十亿行代码的网站,每天有数百万开发者聚集在一起,与开源软件进行协作和报告问题。简而言之,它是一个基于Git构建的软件...

3827
来自专栏跟着阿笨一起玩NET

五层拆解 网站架构

本人转载:http://www.cnblogs.com/scottckt/archive/2010/09/15/1826925.html

1521
来自专栏程序员宝库

号称“开发者神器”的github,到底该怎么用?

GitHub是一个拥有数十亿行代码的网站,每天有数百万开发者聚集在一起,与开源软件进行协作和报告问题。简而言之,它是一个基于Git构建的软件开发人员的平台。

984
来自专栏Spark学习技巧

消息队列服务Kafka揭秘:痛点、优势以及适用场景

摘要:消息队列Kafka是一个分布式的、高吞吐量、高可扩展性消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等,是大数据生态中不可或缺...

2913
来自专栏程序员的知识天地

为何Node.js 能成为 Web 应用开发最佳选择?【强推理由】

一项颠覆性的技术进入技术市场总会带来一阵震惊,但随之而来往往是被放弃。然而,Node.js 当然不是这样的情况,它是一个开源的、跨平台的基于 Chrome 的 ...

1501
来自专栏Java架构师学习

如何构建一个较为通用的业务技术架构

2125
来自专栏跨界架构师

分布式系统关注点——「负载均衡」到底该如何实施?

        前面两篇《分布式系统关注点——初识「高可用」》、《分布式系统关注点——仅需这一篇,吃透「负载均衡」妥妥的》看完后,相信大家对实现高可用的思路和负...

1344

扫码关注云+社区

领取腾讯云代金券