大数据数据仓库—概念

大数据经过反复炒作之后,慢慢的降温下来。大家不再大谈几个v了,落地到企业会发现,大部分场景还是传统的数据仓库的替换。今天梳理下数据仓库的使用场景,以及需要的技术。

1,先谈下数据仓库准确的概念是什么?

数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2,大数据技术相比传统的数据仓库有什么优势?

搞来搞去,又回到了传统的数据仓库吗?事实上,大部分企业的应用传统数据仓库支持就非常好。

相比传统的数据仓库,大数据技术在几个方面有优势:1)支持非结构化数据,传统数据仓库,基于关系理论构建,只支持结构化数据。尤其在互联网行业,非结构化数据是主数据。 2)扩展性上。对于小于100T的结构化数据处理时,往往会发现MPP架构的数据仓库反而性能更高。但是数据仓库有非常明显的扩展瓶颈,目前已知的,最大生产数据仓库节点数据大概是几百个节点。而大数据平台几千台一个集群比比皆是。3)和新的分析方法和算法的结合上。传统数据仓库,还停留在统计,钻取这些传统的BI分析方法。大数据技术衍生出非常多的交互式,BI工具等。

相比传统数据仓库,大数据也有很多劣势:1)小数量下面,比传统的mpp差。大数据量下面,不能满足交互式分析秒级响应的需求。2)对SQL对支持不充分等。所以业界有不少厂商在做这方面的探索,如cloudera的impala,星环的Inceptor,阿里的ads。

本文先介绍数据仓库的基本概念,下一篇介绍大数据数据仓库的应用场景。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2015-10-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

亚马逊深度学习框架MXNet加入Apache孵化器,加持4大开源系统

【新智元导读】亚马逊近日公布其支持的深度学习框架MXNet加入Apache孵化器,从而利用Apache软件基金会的流程、管理、外展和社区活动。加快MXNet的发...

3489
来自专栏大数据文摘

数据工程师的崛起

1423
来自专栏非著名程序员

GitHub 迎史上最大改变?先看看 2018 年度统计报告再说吧!

作为 GitHub 的忠实使用者,一直都在密切关注者 GitHub 的一举一动,尤其是被微软收购以后,GitHub 变得貌似更加频繁了。变化咱们先不说,先来看看...

771
来自专栏腾讯社交用户体验设计

设计效果检验之道

784
来自专栏斑斓

系统架构 | 设计恰如其分的架构

远在2009年,Martin Fowler与Rebecca Parsons在QCon SF做了一次题为Agilists and Architects: Alli...

3586
来自专栏挖掘大数据

推荐系列01:人工智能与推荐系统

前段时间给朋友整理一个关于推荐系统相关的知识教学体系,刚好自身业务中,预计明年初随着业务规模增长,估摸着又要启动推荐相关的项目了,所以也是趁机把相关的知识结构梳...

7420
来自专栏鹅厂网事

互联网时代需要怎样的网管

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

1815
来自专栏IT技术精选文摘

揭秘微信朋友圈广告背后的技术

1.起源 朋友圈广告项目于2015年1月对外发布,我们第一个非商业广告是龙哥想出来的创意,大家应该都有印象,为我们的“与众不同”奠定了基调,也为后面的商业广告预...

1828
来自专栏BestSDK

Wikitude推出“微型AR云”SDK,保障用户AR数据隐私

尽管很多巨头和创业公司都在争相进入AR Cloud领域,但Wikitude貌似却在走另外一条道路,其正在考虑通过新版本AR SDK来改善这一状况,甚至打算把公开...

1052
来自专栏鹅厂网事

大数据在服务器运营中的应用

前言 腾讯公司从2012年开始,通过对服务器运营流程、工具系统的建设,服务器从一线到三线的运营基本转入线上自动化。在服务器静态配置、动态的运行状态和生命周期各个...

2387

扫码关注云+社区