Big data analytics beyond hadoop

今天给大家推荐一本书《big data analytics beyond hadoop》。书的名字应该可以翻译为《hadoop下一代数据分析技术》。

这本书主要讲的是BDAS(Berkeley Data Analytics Stack)伯克利数据分析技术堆栈。伯克利这个大学真是牛,以前搞的BSD,是UNIX系统里面一个重要分支。下面来看下BDAS:

BDAS技术堆栈分三部分,上图中分别以不同的颜色标示:

1、BDAS技术堆栈组件,包括spark/shark/mesos/tachyon等,这些是组成BDAS的骨架。

2、Hadoop生态圈兼容框架,BADS技术堆栈和hadoop生态圈兼容,包括YARN,HDFS等。

3、BADS应用,构建在BADS上的应用。

下面简单说下BDAS几个主要重要的组成:

1、spark:用scala实现的分布式内存计算框架,被认为是hadoop MapReduce的下一代技术发展趋势,也是BADS主要支撑。

2、Shark:构建在spark上SQL查询引擎,和HIVE共元数据,和HIVE原理类似。

3、Mesos:一个双层的资源分配框架,对应hadoop里面的YARN,前面对业界资源管理框架有一个分析资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析:http://jiezhu2007.iteye.com/admin/blogs/2049073。

总的来说:

1、BADS是名校伯克利一群博士,教授鼓捣出来的,理念很超前,同时也有另外一层含义学术氛围浓,各个组件还需要时间完善。

2、这里面最重要的是spark,代表了内存发展的方向,包括cloudera/Hortonworks都把spark包括在自己的发型版本里面了,相信后面应该会有一个长足的发展。

3、书中更多的内容,大家自己去看吧,相信对你应该会有很大的启发。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

大数据和云计算技术周报(第61期)

大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

1122
来自专栏灯塔大数据

4位专家解读2015大数据技术进展

2015年,整个IT技术领域发生了许多深刻而又复杂的变化。本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些...

3386
来自专栏大数据技术学习

0基础学习大数据,你需要了解的学习路线和方向?

现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己?

1591
来自专栏云计算D1net

Hadoop崛起对数据仓库有多大的影响

在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版...

3369
来自专栏一名叫大蕉的程序员

靠谱的数据开发从业指南No.82

数据开发太庞大了 有小伙伴让我聊聊数据开发的职业规划和从业指南,因为数据开发从业人员的知识量实在是太太太大了,今天恰好这个机会好好聊聊。 我们先来看看 Inf...

18310
来自专栏加米谷大数据

7种最常见的Hadoop和Spark项目

称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们...

991
来自专栏大数据和云计算技术

大数据和云计算技术周报(第51期)

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

1083
来自专栏程序人生 阅读快乐

[Hadoop权威指南](第二版)中文

本书是您纵情享用数据之美的得力助手。作为处理海量数据集的理想工具,Apache Hadoop架构是MapReduce算法的一种开源应用,是Google(谷歌)开...

511
来自专栏云计算D1net

SDN网络对云来说是救星

SDN网络起源于当前交换机、路由器、网络协议以及分段工具不能满足对连通性的需求。 云就绪数据中心能够在全世界任何一处不间断提供信息和生产力。云计算模型通过将计算...

3133
来自专栏灯塔大数据

洞察|2016年大数据技术发展趋势概述

对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提...

2523

扫码关注云+社区