【钱塘号专栏】一文读懂数据统计、数据挖掘、大数据、OLAP的区别

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据统计等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计的区别。

 数据分析

  数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

  数据统计

  数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。

  举例,对全年级学生按照平均成绩从高到低排序,前10%的学生可以获得申请研究生免试资格。

  传统的查询和报表工具是告诉你数据库中有什么(What happened)

 OLAP

  联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。

  举例,学校招生时要决定今年在江苏的招生指标,不能简单地参照去年的计划,而是要参考多个维度的数据积累。学校要在这些数据的支持下做出合理的决策。

  OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

数据挖掘

  数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

  举例,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明县,这时通过数据挖掘……

  针对此可以采取有针对性的管理措施。

大数据

  大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。

  总结

  从数据分析的角度来看,目前绝大多数学校的数据应用产品都还处在数据统计和报表分析的阶段,能够实现有效的OLAP分析与数据挖掘的还很少,而能够达到大数据应用阶段的非常少,至少还没有用过有效的大数据集。

钱塘号作者:@whlsb

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2016-12-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏phodal

我是如何为技术博客设计一个推荐系统(上):统计与评分加权

过去的两周里,我一直忙于为 『玩点什么』 设计一个推荐系统。在这个过程中,参考几本书籍,查找了一系列的资料。想着这些资料上,大部分都是大同小异的,实现了几个简单...

43360
来自专栏企鹅号快讯

机器学习在智能制造中的应用!

文丨赵熙朝 ? 制造过程中应用机器学习是进一步对制造系统进行智能赋能,实现替代或辅助管理人员和专业人员对不确定业务进行决策的能力。 01 为什么要把机器学习 应...

29750
来自专栏人工智能快报

Google的开源人工智能引擎预示着重大硬件变革

2015年11月9日,Google将其人工智能引擎(AI)作为开源项目发布到互联网上,作为最重要的创新项目之一,这显示了计算机软件行业正在发生着的变革。最近,互...

33960
来自专栏技术翻译

数据分析师需要掌握的技能

1.第一个是Excel。这看起来很简单,但实际上并非如此。Excel不仅可以执行简单的二维表,复杂的嵌套表,还可以创建折线图,柱形图,条形图,面积图,饼图,雷达...

61120
来自专栏IT派

谷歌文本转语音系统更新 可选择学习模型

据外媒报道,近日,谷歌更新了其云端文本转语音(Cloud Text-to-Speech)API。

21100
来自专栏媒矿工厂

Facebook VR方案总结(一)

VR虚拟现实是一种通过创建虚拟世界,使用户沉浸其中的技术,其萌芽于上世纪60年代。但VR第一次走进大家的视野,或许要归功于Facebook。2014年Faceb...

49180
来自专栏ATYUN订阅号

每个数据科学家都应该知道的顶级GitHub库和Reddit线程(2018年6月版)

半年过去了,这带来了我们流行系列的六月版的顶级GitHub存储库和Reddit线程。在撰写这些文章的过程中,我从开源代码或世界顶级数据科学大脑之间的宝贵讨论中学...

14360
来自专栏PPV课数据科学社区

不要担心没数据!史上最全数据集网站汇总

本文将为您提供一个网站 资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。

50850
来自专栏数据科学与人工智能

【智能】数据科学管道初学者指南

曾几何时,有一个名叫Data的男孩。 在他的一生中,他总是试图了解他的目的是什么。 我有什么价值观? 我可以对这个世界产生什么影响? 数据来自哪里? 看到你和数...

11630
来自专栏新智元

【AI幽灵】超90%论文算法不可复现,你为何不愿公开代码?

新智元编译 来源:science、futurism 编译:克雷格、Marvin 【新智元导读】过去几年发表的AI顶会论文提出的400种算法中,公开算法代...

52890

扫码关注云+社区

领取腾讯云代金券