MPP DB 是 大数据实时分析系统 未来的选择吗?

大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。

当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以Greenplum为最典型代表)。如果从性能来讲,MPP DB在多维复杂查询性能确实要好于HIVE/HBASE/IMPALA等,因此有不少声音认为,MPP DB是适合这种场景的未来的解决方案。MPP DB看似对多维度复杂查询性能较好,但是同时有两个致命的缺点,大家选型的时候不得不考虑:

1、扩展性:

MPP DB都号称都能扩展到1000个节点以上,实际在应用过程中,就我目前从公开资料看到的不超过100个节点,如支付宝中用Greenplum来做财务数据分析的最大一个集群60多台机器。另外和Greenplum公司交流,在广东移动最大的用来做数据存储的,也就100台以内。这和hadoop动不动4,5千个节点一个节点集群简直不在一个数量级上。

为什么MPP DB扩展性不好?

有很多原因,有产品成熟度,也有应用广度的问题,但是最根本的还是架构本身的问题。讲到架构这里就要先讲下CAP原则:

Consistency(一致性), 数据一致更新,所有数据变动都是同步的 Availability(可用性), 好的响应性能 Partition tolerance(分区容错性) 可靠性 定理:任何分布式系统只可同时满足二点,没法三者兼顾。 忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

MPP DB还是基于原DB扩展而来,DB里面天然追求一致性(Consistency),必然带来分区容错性较差。集群规模变得太大,业务数据太多时,MPP DB的元数据管理就完全是一个灾难。元数据巨大无比,一旦出错很难恢复,动不动导致毁库。

所以MPP DB要在扩展性上有质的提示,要对元数据,以及数据存储有架构上的突破,降低对一致性的要求,这样扩展性才能提升,否则的话很难相信一个MPP DB数据库是可以容易扩展的。

2、并发的支持:

一个查询系统,设计出来就是提供人用的,所以能支持的同时并发越高越好。MPP DB核心原理是一个大的查询通过分析为一一个子查询,分布到底层的执行,最后再合并结果,说白了就是通过多线程并发来暴力SCAN来实现高速。这种暴力SCAN的方法,对单个查询来说,动用了整个系统的能力,单个查询比较快,但同时带来用力过猛的问题,整个系统能支持的并发必然不高,从目前实际使用的经验来说,也就支持50~100的并发能力。

当前HBASE/IMPALA应对复杂查询时,也是通过全盘SCAN的方法来实现的,这种场景下,硬盘数量越多越好,转速越快越好。HBASE为什么号称支持上千并发,这也是在特定的场景下(查询时带用户标示,即带row key)才能实现的,复杂查询场景下,什么系统都歇菜。

所以MPP DB应用场景已经非常明显了,适合小集群(100以内),低并发的(50左右)的场景。MPP DB未来是不是趋势,我不知道,但是至少目前来看,用MPP DB来应对大数据的实时分析系统是非常吃力的。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java工会

阿里双十一购物节背后的技术问题

一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。不过以前我还没有考虑过这背后的技术问题,直到最近我做了一...

822
来自专栏java工会

阿里双十一购物节背后的技术问题

一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。不过以前我还没有考虑过这背后的技术问题,直到最近我做了一...

743
来自专栏魏艾斯博客www.vpsss.net

腾讯云新购云服务器五折 1 核 1G 3 年 794.73 元(即 265 元/年)

5054
来自专栏贺嘉的专栏

新增线下、APP 、公众号多处入口,小程序会再火起来么?(内有福利)

从本次小程序开放的6大能力来看,比开放个人开发者注册,更为重要的开放了公众号,APP,线下三类小程序入口,对于开发者而言意味着用更多方式触达海量用户。

2.4K0
来自专栏架构师小秘圈

1亿级PV网站架构演变

作者:叶军 来自:http://www.yejun.cn/?p=1154 一个网站就像一个人,存在一个从小到大的过程。养一个网站和养一个人一样,不同时期需要不...

4817
来自专栏智能计算时代

LF EdgeX Foundry为IoT启用边缘计算

Linux基金会推出了EdgeX Foundry,该项目旨在为物联网计算和可互操作组件生态系统建立开放框架。 EdgeX Foundry旨在促进边缘计算的模式,...

3444
来自专栏腾讯技术工程官方号的专栏

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

861
来自专栏java工会

阿里双十一购物节背后的技术问题

一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。不过以前我还没有考虑过这背后的技术问题,直到最近我做了一...

993
来自专栏腾讯大讲堂的专栏

以“工匠”的精神对待每一个版本

工匠们喜欢不断雕琢自己的产品,不断改善自己的工艺,享受着产品在双手中升华的过程。工匠们对细节有很高要求,追求完美和极致,对精品有着执着的坚持和追求,把品质从99...

19510
来自专栏腾讯大数据的专栏

一行代码,一个系统!您的 Crash 实时分析已上线

腾讯移动分析(MTA),将内部打磨多年的 Crash分析能力对外输出,在复杂的App生态下,专注于构建完善的质量体系,助力 App 研发者用一行代码拥有完整 C...

2861

扫码关注云+社区