大数据、数据分析、数据统计、数据挖掘、OLAP之间的差异

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析等等的专业词汇。如果仅仅从字面上,比较难描述每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计之间的差异。

一、数据分析

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

二、数据统计

数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。

举例,对全年级学生按照平均成绩从高到低排序,前10%的学生可以获得申请研究生免试资格。

传统的查询和报表工具是告诉你数据库中有什么(What happened)

三、OLAP

联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。

举例,学校招生时要决定今年在江苏的招生指标,不能简单地参照去年的计划,而是要参考多个维度的数据积累。学校要在这些数据的支持下做出合理的决策。

OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

四、数据挖掘

数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

举例,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明县,这时通过数据挖掘……

针对此可以采取有针对性的管理措施。

五、大数据

大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。

总结

从数据分析的角度来看,目前绝大多数学校的数据应用产品都还处在数据统计和报表分析的阶段,能够实现有效的OLAP分析与数据挖掘的还很少,而能够达到大数据应用阶段的非常少,至少还没有用过有效的大数据集。

点评:

我们不需要纠结所谓的“专业名词”,作为一个数据分析师,我们的目标是帮助业务更好的发展、减少决策的风险、提取重要的信息,所以业务的套路和理解才是我们的立足之本,数据分析毕竟是我们达成某种目标的工具,疗效才是对我们更深层次的验证。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

三个自动化深度学习平台比较和盘点

数据科学领域有一部分研究者和开发者已经选择学习这些新技术了,但在预测性和规范性建模的问题类型和技术方面(我们 90% 的工作就是这些),学习深度学习技术却与我们...

862
来自专栏新智元

George Hotz:请收下我的智驾系统代码(附论文)

【新智元导读】我知道以GeoHot的脾气,最终 comma.ai 全套AI模型的代码肯定会被他开源,但我没想到会这么快,而且我也没想到这么完备,几乎毫无保留,多...

3568
来自专栏人工智能头条

深度学习成长的烦恼

811
来自专栏PPV课数据科学社区

【学习】机器学习(一)让不懂机器学的人也能通俗易懂

机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(...

2789
来自专栏CSDN技术头条

【BDTC 2015】深度学习分论坛:DL的图像识别、语音识别应用进展

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

1839
来自专栏一名叫大蕉的程序员

Machine Learning最小可迭代产品No.75

报告各位首长,我参与的第二个项目顺利上线啦~ 棒棒,又一次感觉自己做的东西是有价值的,这个项目是一个平台类产品,专注于提高线下零售的实施效率,希望后面的迭代会越...

1818
来自专栏机器之心

业界 | 用于机器阅读理解的迁移学习:微软提出通用型SynNet网络

选自Microsoft Research Blog 作者:Xiaodong He 机器之心编译 参与:Smith、路雪 不是每个人都会下围棋,但大多数人都会阅读...

2666
来自专栏人工智能头条

2017年深度学习十大趋势预测

1292
来自专栏机器之心

入门 | 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

38110
来自专栏华章科技

大数据下客户金融产品购买概率预测

本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。

654

扫码关注云+社区