初次遇见大数据及Hadoop生态系统

1.什么是大数据?

说到大数据不得不提到当今人们的生活处于各个交织的网络当中,我们无时无刻不在制造数据,比如逛购物网站,每一次点击挑选,下单,支付,都在产生数据,拥有这些数据就可以计算出你这个人的一些属性,根据消费习惯可以区分你的兴趣,电子产品控?鞋控?化妆品控?根据消费水平可以区别贫农?平民?地主?

再比如智能穿戴设备,实时收集你的睡眠质量,运动情况,心肺数据等并根据这些数据计算分析出你的身体情况。如今又是自媒体时代,自己的创作的文章,晒的自拍照片,以及很火的短视频分享等,总之,我们无时无刻不在产生大量数据,又因为人口众多,对这些数据的存储,计算,分析要求也越来越高。

综上所述,我们可以总结出大数据的4V特征:

1.Volume 数据体量庞大

(PB级->EB级->ZB级)

2.Varity 数据类型多样

(文本|图像|音视频)

3.Velocity 速度要求快

(数据输入输出的速度)

4.Veracity 数据价值密度低

(商业价值高)

2.大数据之Hadoop

Apache Hadoop是一个应用Java语言实现的云计算的事实标准开源软件,由大量廉价的计算机组成的集群中运行海量数据的可靠的,可扩展的分布式并行计算框架,它可以让应用程序支持上千个节点和PB级别的数据。

Hadoop是项目的总称,主要是由分布式存储(HDFS)、和分布式并行计算模型(MapReduce)等组成,包含数十个具有强大生命力的子项目,已经能在数千节点上运行,并且处理数据量和排序时间不断打破世界纪录。

Hadoop很重要的一点是:不是依靠硬件来提供高可用性,换句话说就是可以集群在普通廉价的pc上,而不需要昂贵的商用机。

Hadoop项目主要包括以下四个模块:

Hadoop Common:支持其他Hadoop模块的常用工具。

Hadoop HDFS:一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

Hadoop YARN:作业调度和集群资源管理的框架。

Hadoop MapReduce:一种用于离线并行处理大型数据集的框架。

Hadoop 2.x生态系统

Apache的其他Hadoop相关项目包括:

Ambari™:一种用于供应,管理和监控Apache Hadoop集群的基于Web的工具,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。Ambari还提供了一个用于查看群集运行状况的仪表板,例如热图和可以直观地查看MapReduce,Pig和Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。

Avro™:数据序列化系统。

Cassandra™:无单点故障的可扩展多主数据库。

Chukwa™:管理大型分布式系统的数据收集系统。

HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储。

Hive™:提供数据汇总和即席查询的数据仓库基础架构。

Mahout™:可扩展的机器学习和数据挖掘库。

Pig™:用于并行计算的高级数据流语言和执行框架。

Spark™:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算。

Tez™:一种基于Hadoop YARN的通用数据流编程框架,它提供了一个强大且灵活的引擎,可执行任意DAG任务来处理批处理和交互式用例的数据。Hado™,Pig™和Hadoop生态系统中的其他框架以及其他商业软件(例如ETL工具)正在采用Tez来替代Hadoop™MapReduce作为底层执行引擎。

ZooKeeper™:分布式应用程序的高性能协调服务。

初次遇见大数据只做简单介绍,下一篇将深入介绍Hadoop2.x,主要包括:

HDFS文件系统

YARN资源调度管理

敬请期待!

如果觉得文章不错,随手给个赞吧,你的点赞是给我最大的支持,另外有错误欢迎留言指出,谢谢。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180311G0GGL600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券