前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据实战技术之开篇-学习实践环境搭建

大数据实战技术之开篇-学习实践环境搭建

作者头像
技巅
发布2018-05-25 11:00:15
5120
发布2018-05-25 11:00:15
举报
文章被收录于专栏:技巅技巅

        大家都知道现在的大数据如火如荼,如果你还在由于是否进入大数据的行业,那么你就out了。现在大数据进入到了各行各业,各种大数据创业公司也是层出不穷,对于大数据的技术人才需求很是旺盛。不过学习大数据技术其实还是有一定门槛的,首先必须有良好的计算机和编程基础,然后还有数据库或者数据仓库相关的技术,不一定需要很深入,但是需要理解。既然号称大数据,那么“大”就是最大的特征,随着社会的发展和各行各业都开始注重数据带来的价值,大数据只会越来越大,但是同时又要求我们处理的时间越来越短。所以只有通过技术优化,架构优化去提示数据处理速度。如果你是大数据技术的初学者,这一篇文章应该适合你,不过这里我更强调的实战,应该说是怎么更好的实战。至于理论只是,在网上一查询那简直多如牛毛,虽然有很多都是重复的内容,但是满足初学者了解和学习的理论知识完全足够。但是真正的大数据实践文章还是比较偏少,原因主要是大多数没有真实的实战场景,很多有实战场景的人可能不愿意写公开的技术文章,或者本身项目是保密的,所以不敢轻易的写,怕无意的泄露了公司机密,那就只有over了。当然网上也有很多大数据开源系统的代码分析文章,但是对于没有实战经验的人来说,这些源码分析真的没有太大的价值。只有把那些大数据开源系统真正的用熟练以后才去理解背后实现的原理才是最佳的。

        既然是实战肯定少不了搭建实战的环境,不过这一篇文章不是告诉你怎么把hadoop或者spark部署和运行起来,而是告诉你怎么把部署这些系统的环境搭建起来,为以后所有大数据开源系统搭建和使用做好准备。大多数大数据相关的系统都是分布式系统,虽然单机也可以运行起来,但是真正的精髓还是分布式。为了更好的理解分布式运行的过程我们需要搭建分布式的大数据开源系统来进行学习和研究。自己学习和研究我一般会选择最新的代码,不是最新版本,一定是最新的代码,一般就是直接去github上clone下来自己编译打包部署和运行。但是在真实的项目中选择开源系统的版本,通常是选择最新的release版本进行部署和使用,而且一般就是从这个版本建立自己的分支。

        那么怎么搭建大数据技术实战的物理环境呢?首先,你需要有一个比较不错的台式机(笔记本也可以,但是确实会遇到一定的性能问题吧)。我就按照我自己的环境介绍,大家根据需要选择吧。我自己在京东上配置了一台台式机,大概配置是:4c的cpu,8GB的内存和1TB的磁盘。然后我按照的是15.04的ubuntu的桌面版,主要是用于开发。然后我在ubuntu上使用virtualbox安装了三台centos7的虚拟机,如下图所示:

        安装centos都是选择的带有图形界面和开发工具,图形界面主要是有问题可以进入图形界面查看和配置,但是后面都会设置成不启动图形界面,通过命令行工具,如下:

1,命令模式 systemctl set-default multi-user.target

2,图形模式 systemctl set-default graphical.target

        比较重要的是网络的设置,主要满足两方面需要,一个是我可以通过ubuntu的终端登录到centos上去操作(这样就不需要进入centos的窗口进行操作了),另一个就是必须要能够链接到互联网,因为需要下载很多大数据开源系统来部署呀。

网上找到一篇解决这个问题的网络配置,不过首先需要把虚拟机的网络设置成桥接模式,如下图所示:

        然后才启动虚拟机进入centos安装如下文章的介绍进行网络配置:http://blog.csdn.net/ltr15036900300/article/details/48828207

        注意:你不需要同时进行三台虚拟机安装来节约时间,你只需要先完完整整安装好一台,并且把相关环境都配置好验证通过即可。然后通过virtualbox的复制功能就可以很容易把第二台和第三台copy出来,唯一需要改一个地方就是配置的静态ip。

        我安装好以后的网络ip配置是:ubuntu(也是三台centos7虚拟机的宿主机):192.168.0.106

          centos1:192.168.0.107

   centos2:192.168.0.108

   centos3:192.168.0.109

        配置好这些网络以后就可以通过ubuntu的终端进行登录了,并且把三台centos7虚拟机都设置成不启动图形界面(极大的减少资源占用,为我们搭建很多开源的分布式大数据系统腾出资源)。这里在告诉搭建一个ubuntu自带终端的一个小秘密,这样可以不要来回切换三台centos登录终端的窗口,就是ubuntu自带的终端本身支持多标签窗口(通过在终端窗口执行ctrl+shift+t就可以了)。

        ok!这样大数据学习系统环境通过一台物理机就完全搭建好了。一台带图形界面的ubuntu系统,上面可以安装运行eclipse进行代码开发,例如读写hdfs,hbase,hive,spark等。三台centos就是可以部署分布式的hadoop等开源系统了。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年6月1日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档