大数据”这个名词越来越多进入我们的视野。大数据的快速发展也在无时无刻影响着我们的生活。

那大数据究竟是什么呢?

在大数据生态圈中hadoop和Spark扮演着什么样的角色?

博乖乖博乖乖提问于
宮園薰回答于

大数据指的是那些数据量特别大,数据类型特别复杂的数据集。

这些数据集无法使用传统的数据库进行存储、管理和处理。大数据的主要特点为:数据量大(Volume),数据类型特别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来称为 4V

HDFS

大数据技术首要的要求就是先把数据存下来。HDFS(Hadoop Distributed FileSystem)的设计本质就是为了大量的数据能够横跨成千上万台机器存储,但是对于用户来说看到的是一个文件系统而不是许多文件系统

MapReduce

能够存储数据后,接下来就要考虑怎么处理数据了。一台计算机处理成 T 上 P 的数据可能需要几天甚至好几周,对于大部分公司都是不可接受的。

Hive

在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦。希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。Pig 是以类似脚本的方式去描述 MapReduce,而 Hive 则是以 SQL 的方式。

这些 应该就是数据仓库的主要内容了。首先底层是 HDFS,上面运行的是 MapReduce/Tez/Spark,在往上封装的是 Pig 和 Hive。

Storm

如果想要更快的计算速度,比如视频网站的热博榜,要求更新延迟在一分钟内,上面的任何一种手段都无法胜任。于是 Streaming(流)计算模型被开发出来了。Storm 是最流行的流计算平台。流处理的思路就是在数据进入系统的时候就进行处理,基本无延迟。

HBase

HBase 是一个构建与 HDFS 的分布式,面向列的存储系统。以 kv 对的方式存储数据并对存取操作做了优化,能够飞快的根据 key 获取绑定的数据。

Other

当然还有一些其他组件,比如Nutch 是搜索引擎,Mahout 是机器学习和推荐引擎,诸如此类等等等。。。。

yarn

为了使这么多工具有序的运行在同一个集群上,还需要使用一个调度系统进行协调指挥。目前流行的是使用 yarn 来进行管理。

这些应该就是比较主流的大数据处理套件了,希望对题主有所帮助

回答过的其他问题

在OpenCV中查找带有文本行的轮廓

已采纳
有一系列步骤可以实现这一目标: 找到将图像二值化的最佳阈值。我用了Otsu门槛。 找到合适的形态学操作,沿水平方向形成单个区域。选择宽度大于高度的内核。 在生成的轮廓上绘制边界框 UPDATE x = 'C:/Users/Desktop/text.jpg' img = cv...... 展开详请

Python openpyxl如何设置活动或选定的单元格

对于openpyxls版本2.3.2我得到了这个工作: WorkSheetOne.sheet_view.selection[0].activeCell = 'A4' WorkSheetOne.sheet_view.selection[0].sqref = 'A4' 希望这...... 展开详请

连接Java-MySql:不允许公钥检索?

Crystal Reports例外:已达到系统管理员配置的最大报告处理作业限制?

Crystal Report文档实现IDisposable接口。所以你所要做的就是把报表的实例和using语句放在一起。一旦using声明完成,它将自动关闭并处置。你可以写这样的东西: using(var report = GetInvoiceReport()) { ...... 展开详请

如何从Visual Studio 2017中禁用Perfwatson2.exe?

  1. 从帮助菜单中,选择发送反馈>设置。
  2. 在Visual Studio体验改进计划对话框中,选择否,我不想参与。

“Class.forName()”和“Class.forName().newInstance()”之间有什么区别?

已采纳
也许一个演示如何使用这两种方法的示例将有助于更好地理解事物。因此,请考虑以下类: package test; public class Demo { public Demo() { System.out.println("Hi!"); } ...... 展开详请

所属标签

扫码关注云+社区

领取腾讯云代金券