Hadoop崛起对数据仓库有多大的影响

在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长,以及其生态系统不断地深入而广泛地发展,我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢。

我们也可以将这个问题放到一个更大的环境中去讨论:在何种程度上,大数据会改变传统数据分析的环境?

数据仓库是技术和软件套件,它能够从操作系统收集数据,并将这些数据整合,并统一到中央数据库中,然后对数据仪表盘上指标进行分析、可视化和追踪关键性能处理。

数据仓库和Hadoop之间的主要区别是:数据仓库通常部署在单个关系数据库中,而这个数据库则起到中央存储的作用。相比之下,Hadoop及其Hadoop文件系统是跨多个机器,并用来处理海量数据的,而这是任何单台机器都达不到的能力。

此外,Hadoop生态系统包括构建在Hadoop核心之上的数据仓库层/服务,而Hadoop上层服务包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)类型的数据存储。相比之下,在过去的十年中,大型数据仓库转移到使用自定义多处理器设备来扩展数据量,像Netezza(被IBM收购)和Teradata所提供的数据仓库。然而,这些设备都非常昂贵,大多数中小企业都负担不起。

在这种背景下,我们很自然地要问:Hadoop是否是数据仓库的终结者?

为了回答这个问题,我们需要将数据仓库技术与数据仓库部署分开来看。Hadoop(和NoSQL数据库的出现)将预示着数据仓库设备和传统数据仓库单一数据库部署的消亡。

而在这方面就有过实例。Hadoop供应商Cloudera将其平台作为“企业数据枢纽”,这在本质上将传统数据管理解决方案的纳入了需求。ReadWrite.com在最近发表的一篇题为“为什么专有大数据技术没有希望与Hadoop竞争”的文章中也发表了类似的看法。同样地,最近一篇华尔街日报文章描述了Hadoop如何挑战甲骨文和Teradata。

Hadoop或NoSQL生态系统仍将继续发展。很多大数据环境开始选择NoSQL、SQL甚至是NewSQL数据仓库的混合方法。此外,MapReduce并行处理引擎也有变化和改进,例如Apache的Spark项目。虽然这个故事还远远没有结束,但可以说,传统的单一服务器关系型数据库或数据库设备并不是大数据或数据仓储的未来。

另一方面,数据仓库技术(包括提取—转换—和—加载、三维建模和商业智能)将会应用到新的Hadoop/NoSQL环境。此外,这些技术也将变身来支持更多的混合环境。主要原则是因为并不是所有数据都是平等的,所以IT经理们应该选择数据存储和访问机制来适应数据的使用。混合环境将包括关键价值存储、关系型数据库、图形存储、文档存储、柱状存储、XML数据库、元数据目录等等。

正如你所看到的,这并不是一个简单的问题,也不可能简单地得出一个答案。然而,一般情况下,虽然大数据在未来五年内将会改变数据仓库的部署,但它不会导致数据仓库的概念和做法过时。

对于向数据仓库投入巨资的联邦政府这意味着什么呢?

首先,当现有数据仓库的容量不够时,数据仓库将被转移到基于Hadoop、多机器或云托管的解决方案。其次,企业并不会选择“放之四海而皆准”的做法,而会将目光转向适合其企业内部数据容量的混合存储方法。

原文发布于微信公众号 - 云计算D1net(D1Net02)

原文发表时间:2014-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏一名叫大蕉的程序员

靠谱的数据开发从业指南No.82

数据开发太庞大了 有小伙伴让我聊聊数据开发的职业规划和从业指南,因为数据开发从业人员的知识量实在是太太太大了,今天恰好这个机会好好聊聊。 我们先来看看 Inf...

20210
来自专栏企鹅号快讯

25个大数据术语,你知道几个?了解几个?

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。 让我们开始吧: ...

1907
来自专栏鹅厂网事

浅谈端到端质量检测和故障诊断

“鹅厂网事”由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

2716
来自专栏PPV课数据科学社区

32页干货PPT:Hadoop在广告监测技术的实践

分享人:卢亿雷 Admaster技术副总裁 PPT概要: 围绕广告营销数据流程、广告监测技术特点、广告监测数据差异、广告数据挖掘平台架构、ADH在广告营销数据挖...

3393
来自专栏华章科技

一文读懂大数据:Hadoop,大数据技术及相关应用

你想了解大数据,却对生涩的术语毫不知情?你想了解大数据的市场和应用,却又没有好的案例和解说?别担心,这本来自Wikibon社区的小书想要帮你。

1082
来自专栏人人都是极客

从ADAS到自动驾驶:研发设计人员的三项心得体会

本文将从下述三方面谈及自动驾驶汽车研发人员从ADAS研发进程所汲取的心得体会,详见正文。 ? 目前,自动驾驶汽车颇具挑战性,在过去数年时间内,设计中获汽车研发人...

3016
来自专栏分布式系统和大数据处理

离线和实时大数据开发实战

这本书是公司一位负责数据库的同事推荐的,正好数据中心也在重构和优化,以应对更加海量的数据,所以便花了点时间读完了这本书。全书分了三个篇章:全局概览,从比较高的高...

1.4K3
来自专栏ThoughtWorks

常用的几种大数据架构剖析 | 洞见

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词...

4056
来自专栏大数据技术学习

0基础学习大数据,你需要了解的学习路线和方向?

现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己?

2942
来自专栏大数据文摘

[译]2015年10个最酷的大数据创业公司

28110

扫码关注云+社区

领取腾讯云代金券