大数据、数据分析、数据统计、数据挖掘、OLAP之间的差异

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析等等的专业词汇。如果仅仅从字面上,比较难描述每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计之间的差异。

一、数据分析

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

二、数据统计

数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。

举例,对全年级学生按照平均成绩从高到低排序,前10%的学生可以获得申请研究生免试资格。

传统的查询和报表工具是告诉你数据库中有什么(What happened)

三、OLAP

联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。

举例,学校招生时要决定今年在江苏的招生指标,不能简单地参照去年的计划,而是要参考多个维度的数据积累。学校要在这些数据的支持下做出合理的决策。

OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

四、数据挖掘

数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

举例,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明县,这时通过数据挖掘……

针对此可以采取有针对性的管理措施。

五、大数据

大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。

总结

从数据分析的角度来看,目前绝大多数学校的数据应用产品都还处在数据统计和报表分析的阶段,能够实现有效的OLAP分析与数据挖掘的还很少,而能够达到大数据应用阶段的非常少,至少还没有用过有效的大数据集。

点评:

我们不需要纠结所谓的“专业名词”,作为一个数据分析师,我们的目标是帮助业务更好的发展、减少决策的风险、提取重要的信息,所以业务的套路和理解才是我们的立足之本,数据分析毕竟是我们达成某种目标的工具,疗效才是对我们更深层次的验证。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

微博中的用户画像:微博中的用户模型

作者:@fengyoung 于2015小光棍节 原文:http://www.wbrecom.com/?p=588 社交媒体(Social Media)相对于传统...

4419
来自专栏腾讯大数据的专栏

大数据产品-腾讯信鸽之手游流失预测

背景 随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住用户,获得更大的收益。在游戏...

3095
来自专栏新智元

【谷歌重拳开放Cloud TPU】GPU最强对手上线,Jeff Dean十条推文全解读

编辑:闻菲、佩琦、张乾 【新智元导读】谷歌又放大招:刚刚,Jeff Dean连发十条Twitter,介绍最新发布的测试版Cloud TPU,目前在美国地区开放,...

2363
来自专栏EAWorld

微服务下软件度量系统设计与商业智能技术新发展

? ? 书接上回,在之前发表的文章《在微服务世界度量DevOps,你准备好了吗?》一文中,我们介绍了如何以GRE理论评价DevOps的实施情况,以及度量驱动和...

3396
来自专栏CSDN技术头条

谷歌工智能开源项目Tensorflow预示着硬件领域的重大变革

谷歌宣布将其最重要的创新项目之一 —— 人工智能引擎 ——作为开源项目发布到网上供大家免费使用,这展示了计算机软件行业正进行着什么样的变革。 最近,互联网巨头们...

19710
来自专栏大数据挖掘DT机器学习

【解析】数据挖掘工具的评判

要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发...

2814
来自专栏用户3246163的专栏

[脑书笔记]《整体性学习》2-获取和理解信息的技术

这篇脑书继续讲整体性学习的第二部分整体性学习的技术,在《整体性学习》1里面在谈到信息进入大脑的顺序是,获取,理解,拓展,纠错和应用。这篇脑书笔记主要针对这5个步...

941
来自专栏PPV课数据科学社区

秒懂数据统计、数据挖掘、大数据、OLAP的区别

这样理解,就简单多啦! 导读:在大数据领域里,经常会看到例如数据挖掘、OLAP、数据统计等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今...

3685
来自专栏专知

【干货】最全知识图谱综述#2: 构建技术与典型应用

【导读】知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-...

5494
来自专栏ATYUN订阅号

NVIDIA研究人员利用AI将标准视频转换为高质量慢动作镜头

来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以用每秒30帧的视频制作高质量的慢动作视频,超过了旨在实现相同效果的各种方法。研究人员将在本周C...

1136

扫码关注云+社区