初次遇见大数据及Hadoop生态系统

文章来源：企鹅号 - Jianpan

1.什么是大数据？

说到大数据不得不提到当今人们的生活处于各个交织的网络当中，我们无时无刻不在制造数据，比如逛购物网站，每一次点击挑选，下单，支付，都在产生数据，拥有这些数据就可以计算出你这个人的一些属性，根据消费习惯可以区分你的兴趣，电子产品控？鞋控？化妆品控？根据消费水平可以区别贫农？平民？地主？

再比如智能穿戴设备，实时收集你的睡眠质量，运动情况，心肺数据等并根据这些数据计算分析出你的身体情况。如今又是自媒体时代，自己的创作的文章，晒的自拍照片，以及很火的短视频分享等，总之，我们无时无刻不在产生大量数据，又因为人口众多，对这些数据的存储，计算，分析要求也越来越高。

综上所述，我们可以总结出大数据的4V特征：

1.Volume 数据体量庞大

（PB级->EB级->ZB级）

2.Varity 数据类型多样

（文本|图像|音视频）

3.Velocity 速度要求快

（数据输入输出的速度）

4.Veracity 数据价值密度低

（商业价值高）

2.大数据之Hadoop

Apache Hadoop是一个应用Java语言实现的云计算的事实标准开源软件，由大量廉价的计算机组成的集群中运行海量数据的可靠的，可扩展的分布式并行计算框架，它可以让应用程序支持上千个节点和PB级别的数据。

Hadoop是项目的总称，主要是由分布式存储（HDFS）、和分布式并行计算模型（MapReduce）等组成，包含数十个具有强大生命力的子项目，已经能在数千节点上运行，并且处理数据量和排序时间不断打破世界纪录。

Hadoop很重要的一点是：不是依靠硬件来提供高可用性，换句话说就是可以集群在普通廉价的pc上，而不需要昂贵的商用机。

Hadoop项目主要包括以下四个模块：

Hadoop Common：支持其他Hadoop模块的常用工具。

Hadoop HDFS：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一种用于离线并行处理大型数据集的框架。

Hadoop 2.x生态系统

Apache的其他Hadoop相关项目包括：

Ambari™：一种用于供应，管理和监控Apache Hadoop集群的基于Web的工具，其中包括对Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支持。Ambari还提供了一个用于查看群集运行状况的仪表板，例如热图和可以直观地查看MapReduce，Pig和Hive应用程序的功能，以及以用户友好的方式诊断其性能特征的功能。

Avro™：数据序列化系统。

Cassandra™：无单点故障的可扩展多主数据库。

Chukwa™：管理大型分布式系统的数据收集系统。

HBase™：可扩展的分布式数据库，支持大型表格的结构化数据存储。

Hive™：提供数据汇总和即席查询的数据仓库基础架构。

Mahout™：可扩展的机器学习和数据挖掘库。

Pig™：用于并行计算的高级数据流语言和执行框架。

Spark™：用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型，支持广泛的应用程序，包括ETL，机器学习，流处理和图计算。

Tez™：一种基于Hadoop YARN的通用数据流编程框架，它提供了一个强大且灵活的引擎，可执行任意DAG任务来处理批处理和交互式用例的数据。Hado™，Pig™和Hadoop生态系统中的其他框架以及其他商业软件（例如ETL工具）正在采用Tez来替代Hadoop™MapReduce作为底层执行引擎。

ZooKeeper™：分布式应用程序的高性能协调服务。

初次遇见大数据只做简单介绍，下一篇将深入介绍Hadoop2.x，主要包括：

HDFS文件系统

YARN资源调度管理

敬请期待！

如果觉得文章不错，随手给个赞吧，你的点赞是给我最大的支持，另外有错误欢迎留言指出，谢谢。

发表于: 2018-03-112018-03-11 15:41:45
原文链接：http://kuaibao.qq.com/s/20180311G0GGL600?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

初次遇见大数据及Hadoop生态系统

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐