专栏首页PPV课数据科学社区【学习】从回归分析到数据挖掘

【学习】从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、欺诈风险侦测,还是半导体、电子、化工、医药、钢铁等制造行业的研发技术人员在进行新产品实验设计与分析、流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析。

回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制。但是,稍微对回归模型的有效程度和预测精度有一定要求时,我们就会发现回归分析有一些先天性的不足和隐患:

1. 缺少用实际数据验证模型有效性的环节,经常听到的抱怨是:模型看上去很美,但是一到应用环节就发现预测不准确;

2. 建模手段单一,不能多角度地考虑问题,从而更好地拟合数据;

3. 无法系统地比较通过不同方法得到的不同模型,更谈不上在众多候选模型中甄选出一个相对最佳的模型。

这时,想要消除上述隐患,突破工具瓶颈的理想办法就是从“回归分析”的层次上升到“数据挖掘”的层次。

数据挖掘是一个更大的数据分析概念,主要指从大量的企业数据中揭示出隐含的、先前未知的并有潜在价值的信息的整个过程。从统计技术层面上讲,数据挖掘至少具有三大特征:

1. 强调分析建模之前的数据源划分,一般需要将所有原始数据分为模型训练数据training data、模型验证数据validation data、模型测试数据test data三类。从而从源头上确保了由此求得的模型是经得起现实复杂情况的严峻考验。

2. 提供了丰富的建模手段,除了基于最小二乘法、逐步法和Logistic法等传统的回归分析之外,还包括很多新颖又实用的建模技术,如:决策树(Decision Tree)、神经网络(Neural Network)、关联规则(Association Rule)、支持向量机(Support Vector Machine)、文本挖掘(Text Mining)等。这使我们在遇到回归分析失效的情况下,依然具备解决问题的能力。

3.“模型比较(Model Comparison)”是数据挖掘后期的过程中必不可少的一个环节,这样一来,我们就可以科学、客观地从不同的候选模型中找到最理想的模型来做最精准的预测分析,将预测误差降低到最低。

显然,数据挖掘的这三个特征有效地弥补了回归分析的不足,为我们的建模预测工作奠定了扎实的基础。下面用一个真实案例来说明从回归分析到数据挖掘的实际应用,出于数据安全性的考虑,核心数据(包括变量名称)已做了相应的编码处理。

某知名钢铁公司的研发部门在一个构建结构钢端淬曲线预测模型的项目中,先用用SAS公司面向普通工程师和科学家开发的交互式可视化统计发现软件JMP中的逐步回归做了一个预测模型(见下图)。

从分析报告上来看,这个预测模型还是不错的。但在模型的推广过程中,多次发现预测误差很大,甚至严重动摇了技术人员应用统计建模的信心。所幸在权威咨询机构的指导下,发现造成模型预测失误的主要原因是模型过度拟合,包含了很多不必要拟合的噪声信息。项目成员重新思考了技术攻关中需要用到的方法论,最终决定升级到高级版JMP Pro,没有多做一次现场实验,没有申请任何额外预算,却显著改善了模型的预测效果,达到了预期效果。

从技术细节上来看,项目后期与前期的不同之处也恰巧体现了前面所介绍的

数据挖掘的三大特征,即:

第一,没有囫囵吞枣地把所有数据全都用来构建模型,而是有计划地按照一定比例将所有数据分为训练数据、验证数据、测试数据三类,各类数据各司其职,确保由此产生的模型在生产阶段的有效性。

第二,开拓思路,有机地运用除了回归分析之外的多种数据挖掘建模工具,如决策树、神经网络,以及其衍生工具(如随机森林Bootstrap Forest、提升树Boosted Tree等),避免了由于单一方法的生搬硬套而导致的建模错误。

第三,先松后紧,整合之前求得的各个候选模型,将科学严谨的统计量化指标与实际业务经验相结合,挑选出整体上最合适的预测模型,体现了“博采众长,取长补短”的建模理念。

总之,“从回归分析到数据挖掘”是企业在精细化管理发展到一定阶段后必定会遇到的一个问题。当然,相对于传统的回归分析,数据挖掘会显得相对复杂一些。但是,融合先进算法而关注界面友好的现代化统计分析软件(如案例中用到的JMP Pro软件),已经大大降低了数据挖掘的技术门槛,使得无论是科班出身的统计学家,还是没有统计学功底的普通技术人员,都能快速上手,真正地数据中挖掘出对企业运营有益的信息。

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何做好数据挖掘模型的9条经验总结

    当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非理论,在其过程...

    小莹莹
  • 【数据挖掘】如何系统地学习数据挖掘

    ? 数据挖掘:What?Why?How? 这个问题思考了很久,作为过来人谈一谈,建议先看下以前的一些回答。 什么是数据挖掘? 怎么培养数据分析的能力? 如何成...

    小莹莹
  • ☞【PPT】数据挖掘方法及案例介绍

    1、数据挖掘的引入 面对山一样高的,海一样广的数据,我们该怎么办? ? 数据挖掘中的5W问题 ❶为什么要使用数据挖掘? ❷数据挖掘是什么? ❸谁在使用数据挖掘?...

    小莹莹
  • Window下搭建Android开发环境

    SDK Setup启动和设置。下载好Android SDK后,解压放到一个你常用的目录下,然后运行SDK Setup.exe将启动Android SDK and...

    飞雪无情
  • 图解 | 当我们在读写 Socket 时,我们究竟在读写什么?

    套接字socket是大多数程序员都非常熟悉的概念,它是计算机网络编程的基础,TCP/UDP收发消息都靠它。我们熟悉的web服务器底层依赖它,我们用到的MySQL...

    芋道源码
  • 【动画】当我们在读写Socket时,我们究竟在读写什么?

    套接字socket是大多数程序员都非常熟悉的概念,它是计算机网络编程的基础,TCP/UDP收发消息都靠它。我们熟悉的web服务器底层依赖它,我们用到的MySQL...

    老钱
  • 【动画】当我们在读写Socket时,我们究竟在读写什么?

    套接字socket是大多数程序员都非常熟悉的概念,它是计算机网络编程的基础,TCP/UDP收发消息都靠它。我们熟悉的web服务器底层依赖它,我们用到的MySQL...

    Java后端技术
  • 超越GAN!OpenAI提出可逆生成模型,AI合成超逼真人像

    【新智元导读】OpenAI最新提出的可逆生成模型Glow,可以使用相对少的数据,快速生成高清的逼真图像,具有GAN和VAE所不具备的精确操作潜在变量、需要内存少...

    新智元
  • 入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?

    Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。在 Gartner 看来,只有 53% 的项目能够从 AI 原型转化为生产。AI...

    机器之心
  • 五款鬼怪类VR游戏,陪你共度清明小长假(文章高能)

    VRPinea

扫码关注云+社区

领取腾讯云代金券