今天给大家推荐一本书《big data analytics beyond hadoop》。书的名字应该可以翻译为《hadoop下一代数据分析技术》。
这本书主要讲的是BDAS(Berkeley Data Analytics Stack)伯克利数据分析技术堆栈。伯克利这个大学真是牛,以前搞的BSD,是UNIX系统里面一个重要分支。下面来看下BDAS:
BDAS技术堆栈分三部分,上图中分别以不同的颜色标示:
1、BDAS技术堆栈组件,包括spark/shark/mesos/tachyon等,这些是组成BDAS的骨架。
2、Hadoop生态圈兼容框架,BADS技术堆栈和hadoop生态圈兼容,包括YARN,HDFS等。
3、BADS应用,构建在BADS上的应用。
下面简单说下BDAS几个主要重要的组成:
1、spark:用scala实现的分布式内存计算框架,被认为是hadoop MapReduce的下一代技术发展趋势,也是BADS主要支撑。
2、Shark:构建在spark上SQL查询引擎,和HIVE共元数据,和HIVE原理类似。
3、Mesos:一个双层的资源分配框架,对应hadoop里面的YARN,前面对业界资源管理框架有一个分析资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析:http://jiezhu2007.iteye.com/admin/blogs/2049073。
总的来说:
1、BADS是名校伯克利一群博士,教授鼓捣出来的,理念很超前,同时也有另外一层含义学术氛围浓,各个组件还需要时间完善。
2、这里面最重要的是spark,代表了内存发展的方向,包括cloudera/Hortonworks都把spark包括在自己的发型版本里面了,相信后面应该会有一个长足的发展。
3、书中更多的内容,大家自己去看吧,相信对你应该会有很大的启发。