专栏首页技巅大数据实战技术之开篇-学习实践环境搭建

大数据实战技术之开篇-学习实践环境搭建

        大家都知道现在的大数据如火如荼,如果你还在由于是否进入大数据的行业,那么你就out了。现在大数据进入到了各行各业,各种大数据创业公司也是层出不穷,对于大数据的技术人才需求很是旺盛。不过学习大数据技术其实还是有一定门槛的,首先必须有良好的计算机和编程基础,然后还有数据库或者数据仓库相关的技术,不一定需要很深入,但是需要理解。既然号称大数据,那么“大”就是最大的特征,随着社会的发展和各行各业都开始注重数据带来的价值,大数据只会越来越大,但是同时又要求我们处理的时间越来越短。所以只有通过技术优化,架构优化去提示数据处理速度。如果你是大数据技术的初学者,这一篇文章应该适合你,不过这里我更强调的实战,应该说是怎么更好的实战。至于理论只是,在网上一查询那简直多如牛毛,虽然有很多都是重复的内容,但是满足初学者了解和学习的理论知识完全足够。但是真正的大数据实践文章还是比较偏少,原因主要是大多数没有真实的实战场景,很多有实战场景的人可能不愿意写公开的技术文章,或者本身项目是保密的,所以不敢轻易的写,怕无意的泄露了公司机密,那就只有over了。当然网上也有很多大数据开源系统的代码分析文章,但是对于没有实战经验的人来说,这些源码分析真的没有太大的价值。只有把那些大数据开源系统真正的用熟练以后才去理解背后实现的原理才是最佳的。

        既然是实战肯定少不了搭建实战的环境,不过这一篇文章不是告诉你怎么把hadoop或者spark部署和运行起来,而是告诉你怎么把部署这些系统的环境搭建起来,为以后所有大数据开源系统搭建和使用做好准备。大多数大数据相关的系统都是分布式系统,虽然单机也可以运行起来,但是真正的精髓还是分布式。为了更好的理解分布式运行的过程我们需要搭建分布式的大数据开源系统来进行学习和研究。自己学习和研究我一般会选择最新的代码,不是最新版本,一定是最新的代码,一般就是直接去github上clone下来自己编译打包部署和运行。但是在真实的项目中选择开源系统的版本,通常是选择最新的release版本进行部署和使用,而且一般就是从这个版本建立自己的分支。

        那么怎么搭建大数据技术实战的物理环境呢?首先,你需要有一个比较不错的台式机(笔记本也可以,但是确实会遇到一定的性能问题吧)。我就按照我自己的环境介绍,大家根据需要选择吧。我自己在京东上配置了一台台式机,大概配置是:4c的cpu,8GB的内存和1TB的磁盘。然后我按照的是15.04的ubuntu的桌面版,主要是用于开发。然后我在ubuntu上使用virtualbox安装了三台centos7的虚拟机,如下图所示:

        安装centos都是选择的带有图形界面和开发工具,图形界面主要是有问题可以进入图形界面查看和配置,但是后面都会设置成不启动图形界面,通过命令行工具,如下:

1,命令模式 systemctl set-default multi-user.target

2,图形模式 systemctl set-default graphical.target

        比较重要的是网络的设置,主要满足两方面需要,一个是我可以通过ubuntu的终端登录到centos上去操作(这样就不需要进入centos的窗口进行操作了),另一个就是必须要能够链接到互联网,因为需要下载很多大数据开源系统来部署呀。

网上找到一篇解决这个问题的网络配置,不过首先需要把虚拟机的网络设置成桥接模式,如下图所示:

        然后才启动虚拟机进入centos安装如下文章的介绍进行网络配置:http://blog.csdn.net/ltr15036900300/article/details/48828207

        注意:你不需要同时进行三台虚拟机安装来节约时间,你只需要先完完整整安装好一台,并且把相关环境都配置好验证通过即可。然后通过virtualbox的复制功能就可以很容易把第二台和第三台copy出来,唯一需要改一个地方就是配置的静态ip。

        我安装好以后的网络ip配置是:ubuntu(也是三台centos7虚拟机的宿主机):192.168.0.106

          centos1:192.168.0.107

   centos2:192.168.0.108

   centos3:192.168.0.109

        配置好这些网络以后就可以通过ubuntu的终端进行登录了,并且把三台centos7虚拟机都设置成不启动图形界面(极大的减少资源占用,为我们搭建很多开源的分布式大数据系统腾出资源)。这里在告诉搭建一个ubuntu自带终端的一个小秘密,这样可以不要来回切换三台centos登录终端的窗口,就是ubuntu自带的终端本身支持多标签窗口(通过在终端窗口执行ctrl+shift+t就可以了)。

        ok!这样大数据学习系统环境通过一台物理机就完全搭建好了。一台带图形界面的ubuntu系统,上面可以安装运行eclipse进行代码开发,例如读写hdfs,hbase,hive,spark等。三台centos就是可以部署分布式的hadoop等开源系统了。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 开源软件实践之linux高性能服务器编程框架和选型

    技巅
  • 腾讯云大数据产品研发实战(由IT大咖说整理)

    技巅
  • IT技术水平会像贫富差距一样越来越大

    技巅
  • 深入理解Java虚拟机:JVM高级特性与最佳实践(第2版) - 周志明

    《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》内容简介:第1版两年内印刷近10次,4家网上书店的评论近4?000条,98%以上的评论全部为5星级...

    用户3157710
  • 使用Vmware虚拟机部署开发环境之Mac OS X系统安装

    一、使用VMware虚拟机部署Mac开发环境所需工具: Vmware Workstation 14.0虚拟机软件 VM安装Mac解锁工具Unlock 苹...

    企鹅号小编
  • Confluence 6 找到未使用的空间 原

    有时候,你希望找到你系统中没有使用的内容。有时候你也希望能够对这些内容进行更多的关注,但是如何找到一些有关长期不更新的页面,或者长期不使用的空间?

    HoneyMoose
  • 8张图理解Java

    1、字符串不变性 下面这张图展示了这段代码做了什么 String s = "abcd"; s = s.concat("ef"); ? 2、equals()方法...

    java达人
  • 世界企鹅日 - 腾讯ISUX

    腾讯ISUX
  • 8张图理解Java

    1、字符串不变性 下面这张图展示了这段代码做了什么 1、String s = "abcd"; 2、s = s.concat("ef"); ? 2、equals(...

    Java学习
  • 关系型数据库的架构演变

    由Master负责写操作,而Slave作为备库,不开放写权限,但允许读权限,主从之前保持数据同步。

    凹谷

扫码关注云+社区

领取腾讯云代金券