首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Big data analytics beyond hadoop

Big data analytics beyond hadoop

作者头像
大数据和云计算技术
发布2018-03-08 10:16:55
7530
发布2018-03-08 10:16:55
举报

今天给大家推荐一本书《big data analytics beyond hadoop》。书的名字应该可以翻译为《hadoop下一代数据分析技术》。

这本书主要讲的是BDAS(Berkeley Data Analytics Stack)伯克利数据分析技术堆栈。伯克利这个大学真是牛,以前搞的BSD,是UNIX系统里面一个重要分支。下面来看下BDAS:

BDAS技术堆栈分三部分,上图中分别以不同的颜色标示:

1、BDAS技术堆栈组件,包括spark/shark/mesos/tachyon等,这些是组成BDAS的骨架。

2、Hadoop生态圈兼容框架,BADS技术堆栈和hadoop生态圈兼容,包括YARN,HDFS等。

3、BADS应用,构建在BADS上的应用。

下面简单说下BDAS几个主要重要的组成:

1、spark:用scala实现的分布式内存计算框架,被认为是hadoop MapReduce的下一代技术发展趋势,也是BADS主要支撑。

2、Shark:构建在spark上SQL查询引擎,和HIVE共元数据,和HIVE原理类似。

3、Mesos:一个双层的资源分配框架,对应hadoop里面的YARN,前面对业界资源管理框架有一个分析资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析:http://jiezhu2007.iteye.com/admin/blogs/2049073。

总的来说:

1、BADS是名校伯克利一群博士,教授鼓捣出来的,理念很超前,同时也有另外一层含义学术氛围浓,各个组件还需要时间完善。

2、这里面最重要的是spark,代表了内存发展的方向,包括cloudera/Hortonworks都把spark包括在自己的发型版本里面了,相信后面应该会有一个长足的发展。

3、书中更多的内容,大家自己去看吧,相信对你应该会有很大的启发。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档