大数据家族

大家都听说过Hadoop,本身这个单词没有意义,是一个外国小孩给自己的玩具大象命名的名字,目前一提到大数据基本把它作为大数据的代名词。大数据家族是一个生态。作为hadoop框架的开篇,介绍hadoop常见的家族成员的产生的背景及应用的场景,会让大家更不便于理解大数据家族。hadoop家族成员概貌如下图:

人类有人类自己的历史,从出生到消亡是人的生命周期,hadoop也有最自己的历史。2005年,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份,Map/Reduce 和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

经历了从hadoop1到hadoop2的飞跃,hadoop1的出现填补了大数据处理市场的空白,开源基础上逐渐发展壮大,使得对TB、PB甚至EB级别数据的处理成为可能。hadoop1由两部分组成,即HDFS和MapReduce,HDFS作为分布式文件存储系统,专门用来存储大量的数据。MapReduce作为分布式计算框架,对分布式存储的数据进行分布式的迭代处理和分析。hadoop2由三部分组成,即HDFS、Yarn和MapReduce,其中Yarn的出现使得Hadoop框架有了质的飞跃,作为资源调度器,Yarn能够高效的利用资源,并且也能将Spark、Storm等计算框架运行在Hadoop集群上。

大数据家族根据应用需求不断迭代发展,不断出生很多优秀的孩子。

Hive:作为运行在hadoop之上的数据仓库,可以将HDFS上存储的数据,映射成一张表格,并且基于MR计算框架进行数据的分析。由于Hive将查询映射成MR进行计算,所以查询的实时性不强。

Hbase:作为Google Bigtable 的开源实现,是一种构建在HDFS之上的分布式、面向列的数据库,作为Key-Value数据库,Hbase通过行健、列族、列和时间戳定位到数据。

Kafka:作为高吞吐量的分布式发布-订阅消息系统,在流处理领域中得到了广泛的应用,一般作为流处理的数据源。

Flume:作为分布式的日志收集系统,主要分为Source,Channel,Sink三部分:Source负责从数据源采集数据,数据源可以是文件系统,也可以是Kafka等消息系统;Channel作为数据传输的通道将数据源采集的数据通过Sink发送给数据接受地。Sink作为数据的输出端,通过指定不同类型的Sink将数据进行存储,常用的Sink有hdfs,kafka,ES等。

Kudu:作为Hadoop家族的比较新的成员,作为对分布式列数据库的补充,同时又支持列的扩展和SQL查询。

Zookeeper:作为Hadoop家族的分布式协作服务,几乎到处都可以看到Zookeeper的身影,Hadoop2通过zookeeper来克服单点故障;Kafka通过Zookeeper来进行崩溃检测,实现topic的发现,并保持topic的生产和消费状态;Hbase通过Zookeeper选择集群主节点,并保存元数据。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。

Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

深度学习(Deep Learning, DL):深度学习的概念源于人工神经网络的研究,最近几年发展迅猛。深度学习应用的实例有AlphaGo、人脸识别、图像检测等。

一、大数据通用处理平台

1.Spark 2.Flink 3.Hadoop

二、分布式存储

HDFS

三、资源调度

Yarn Mesos

四、机器学习工具

Mahout

1.Spark Mlib

2.TensorFlow (Google 系)

3.Amazon Machine Learning

4.DMTK (微软分布式机器学习工具)

五、数据分析/数据仓库(SQL类)

1.Pig

2.Hive

3.kylin

4.Spark SQL,

5.Spark DataFrame

6.Impala

六、消息队列

1. Kafka(纯日志类,大吞吐量)

2. RocketMQ

3. ZeroMQ

4. ActiveMQ

5. RabbitMQ

七、流式计算

1. Storm/JStorm

2. SparkStreaming

3. Flink

八、日志收集

Scribe

Flume

九、数据分析挖掘

MATLAB

SPSS

SAS

十、机器学习

机器学习基础

1. 聚类

2. 时间序列

3. 推荐系统

4. 回归分析

5. 文本挖掘

6. 决策树

7. 支持向量机

8. 贝叶斯分类

9. 神经网络

机器学习工具如下

1. Mahout

2. Spark Mlib

3. TensorFlow(Google 系)

4. AmazonMachine Learning

5. DMTK (微软分布式机器学习工具)

应用驱动科技发展,大数据相关技术也在与时俱进,大数据家族逐渐成长,稳健。

机器思维公众号已面向公众开放投稿,优秀文稿我们会第一时间分享给大家,欢迎各位参与投稿!

投稿邮箱:aijqsw@163.com

本文分享自微信公众号 - AI机器思维(jiqisiwei)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2.3 基于IDEA开发第一个MapReduce大数据程序WordCount

    在项目根目录,运行命令,打完包后默认build/libs/WordCount-1.0-SNAPSHOT.jar

    王小雷
  • HBase各功能组件、集成MapReduce的方式及数据迁移

    (2)例:HBase集成MapReduce,将user表中的部分数据导出到basic表中。

    魏晓蕾
  • Hive的企业级优化及实战案例

    2、优化二:解释执行计划 语法格式:EXPLAIN [EXTENDED|DEPENDENCY] query 语句示例:explain select dept...

    魏晓蕾
  • Pytorch打怪路(一)pytorch进行CIFAR-10分类(5)测试

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

    TeeyoHuang
  • 数据仓库问题总结

    1.在关系模型中,实现“关系中不允许出现相同的元组”的约束是通过 “主键” 完成的。

    曼路
  • 【Oozie】Hadoop调度框架介绍及工作流调度框架Oozie概述

    版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/...

    魏晓蕾
  • Hive中数据的压缩及存储

    启动namenode、datanode、resourcemanager、nodemanager。 一个窗口输入:hive-0.13.1]$ bin/hives...

    魏晓蕾
  • 【Spark】Spark Core 架构原理

    1)MapReduce:分布式的计算框架 缺点: 执行速度慢,IO瓶颈(磁盘IO,网络IO); shuffle机制:数据需要输出到磁盘,而且每次shuff...

    魏晓蕾
  • 【Hadoop】MapReduce数据类型、二次排序、Join编程及分布式拷贝DistCP

    版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/...

    魏晓蕾
  • 【Hive】Hive介绍及Hive环境搭建

    版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/...

    魏晓蕾

扫码关注云+社区

领取腾讯云代金券