前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据家族

大数据家族

作者头像
机器思维研究院
发布2019-06-10 15:26:00
7300
发布2019-06-10 15:26:00
举报
文章被收录于专栏:AI机器思维

大家都听说过Hadoop,本身这个单词没有意义,是一个外国小孩给自己的玩具大象命名的名字,目前一提到大数据基本把它作为大数据的代名词。大数据家族是一个生态。作为hadoop框架的开篇,介绍hadoop常见的家族成员的产生的背景及应用的场景,会让大家更不便于理解大数据家族。hadoop家族成员概貌如下图:

人类有人类自己的历史,从出生到消亡是人的生命周期,hadoop也有最自己的历史。2005年,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份,Map/Reduce 和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

经历了从hadoop1到hadoop2的飞跃,hadoop1的出现填补了大数据处理市场的空白,开源基础上逐渐发展壮大,使得对TB、PB甚至EB级别数据的处理成为可能。hadoop1由两部分组成,即HDFS和MapReduce,HDFS作为分布式文件存储系统,专门用来存储大量的数据。MapReduce作为分布式计算框架,对分布式存储的数据进行分布式的迭代处理和分析。hadoop2由三部分组成,即HDFS、Yarn和MapReduce,其中Yarn的出现使得Hadoop框架有了质的飞跃,作为资源调度器,Yarn能够高效的利用资源,并且也能将Spark、Storm等计算框架运行在Hadoop集群上。

大数据家族根据应用需求不断迭代发展,不断出生很多优秀的孩子。

Hive:作为运行在hadoop之上的数据仓库,可以将HDFS上存储的数据,映射成一张表格,并且基于MR计算框架进行数据的分析。由于Hive将查询映射成MR进行计算,所以查询的实时性不强。

Hbase:作为Google Bigtable 的开源实现,是一种构建在HDFS之上的分布式、面向列的数据库,作为Key-Value数据库,Hbase通过行健、列族、列和时间戳定位到数据。

Kafka:作为高吞吐量的分布式发布-订阅消息系统,在流处理领域中得到了广泛的应用,一般作为流处理的数据源。

Flume:作为分布式的日志收集系统,主要分为Source,Channel,Sink三部分:Source负责从数据源采集数据,数据源可以是文件系统,也可以是Kafka等消息系统;Channel作为数据传输的通道将数据源采集的数据通过Sink发送给数据接受地。Sink作为数据的输出端,通过指定不同类型的Sink将数据进行存储,常用的Sink有hdfs,kafka,ES等。

Kudu:作为Hadoop家族的比较新的成员,作为对分布式列数据库的补充,同时又支持列的扩展和SQL查询。

Zookeeper:作为Hadoop家族的分布式协作服务,几乎到处都可以看到Zookeeper的身影,Hadoop2通过zookeeper来克服单点故障;Kafka通过Zookeeper来进行崩溃检测,实现topic的发现,并保持topic的生产和消费状态;Hbase通过Zookeeper选择集群主节点,并保存元数据。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。

Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

深度学习(Deep Learning, DL):深度学习的概念源于人工神经网络的研究,最近几年发展迅猛。深度学习应用的实例有AlphaGo、人脸识别、图像检测等。

一、大数据通用处理平台

1.Spark 2.Flink 3.Hadoop

二、分布式存储

HDFS

三、资源调度

Yarn Mesos

四、机器学习工具

Mahout

1.Spark Mlib

2.TensorFlow (Google 系)

3.Amazon Machine Learning

4.DMTK (微软分布式机器学习工具)

五、数据分析/数据仓库(SQL类)

1.Pig

2.Hive

3.kylin

4.Spark SQL,

5.Spark DataFrame

6.Impala

六、消息队列

1. Kafka(纯日志类,大吞吐量)

2. RocketMQ

3. ZeroMQ

4. ActiveMQ

5. RabbitMQ

七、流式计算

1. Storm/JStorm

2. SparkStreaming

3. Flink

八、日志收集

Scribe

Flume

九、数据分析挖掘

MATLAB

SPSS

SAS

十、机器学习

机器学习基础

1. 聚类

2. 时间序列

3. 推荐系统

4. 回归分析

5. 文本挖掘

6. 决策树

7. 支持向量机

8. 贝叶斯分类

9. 神经网络

机器学习工具如下

1. Mahout

2. Spark Mlib

3. TensorFlow(Google 系)

4. AmazonMachine Learning

5. DMTK (微软分布式机器学习工具)

应用驱动科技发展,大数据相关技术也在与时俱进,大数据家族逐渐成长,稳健。

机器思维公众号已面向公众开放投稿,优秀文稿我们会第一时间分享给大家,欢迎各位参与投稿!

投稿邮箱:aijqsw@163.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档