首页
学习
活动
专区
工具
TVP
发布

数据统计分析和数据挖掘有何区别?

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

数据统计分析和数据挖掘有何区别呢?很多人搞不明白。

从实践应用角度来看,这个问题并没有很大的意义,正如“不管黑猫白猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题。

从两者的理论来源来看,它们在很多情况下都是极其相似的。

比如,在典型的数据挖掘技术的决策树里,CART、CHAID等理论方法都是基于统计理论所发展和延伸的;

并且数据挖掘中的技术有相当比例是用统计学中的多变量分析来支撑的。

相对于传统的统计分析技术,数据挖掘有如下一些特点:

数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。

数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。

不过,需要强调的是基本的统计知识和技能是必需的。

在信息化时代,数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析,所以数据挖掘工具的应用更加符合企业实践和实战的需要。

从操作者来看,数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测。

更主流的观点普遍认为,数据挖掘是统计分析技术的延伸和发展,如果一定要加以区分,他们又有哪些区别呢?数据挖掘在如下几个方面与统计分析形成了比较明显的差异:

统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;

但是在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量之间的关系。

因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。

最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层即使一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。

不过,如果能换种思维方式,从实战的角度考虑,只要模型能正确预测客户行为,能为精细化运营提供准确的细分人群和目标客户,业务部门、运营部门不了解模型的技术细节,又有何不可呢?

在实践应用中,统计分析常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立

但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律

两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。

虽然上面详细阐述了统计分析与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,也无法割裂,在实践应用中,没有哪个分析师会说,“我只用数据挖掘技术来分析”,或者“我只用统计分析技术来分析”。

正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术、而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

主题 |大数据统计分析

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180911B19CFK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券