【学习】从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、欺诈风险侦测,还是半导体、电子、化工、医药、钢铁等制造行业的研发技术人员在进行新产品实验设计与分析、流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析。

回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制。但是,稍微对回归模型的有效程度和预测精度有一定要求时,我们就会发现回归分析有一些先天性的不足和隐患:

1. 缺少用实际数据验证模型有效性的环节,经常听到的抱怨是:模型看上去很美,但是一到应用环节就发现预测不准确;

2. 建模手段单一,不能多角度地考虑问题,从而更好地拟合数据;

3. 无法系统地比较通过不同方法得到的不同模型,更谈不上在众多候选模型中甄选出一个相对最佳的模型。

这时,想要消除上述隐患,突破工具瓶颈的理想办法就是从“回归分析”的层次上升到“数据挖掘”的层次。

数据挖掘是一个更大的数据分析概念,主要指从大量的企业数据中揭示出隐含的、先前未知的并有潜在价值的信息的整个过程。从统计技术层面上讲,数据挖掘至少具有三大特征:

1. 强调分析建模之前的数据源划分,一般需要将所有原始数据分为模型训练数据training data、模型验证数据validation data、模型测试数据test data三类。从而从源头上确保了由此求得的模型是经得起现实复杂情况的严峻考验。

2. 提供了丰富的建模手段,除了基于最小二乘法、逐步法和Logistic法等传统的回归分析之外,还包括很多新颖又实用的建模技术,如:决策树(Decision Tree)、神经网络(Neural Network)、关联规则(Association Rule)、支持向量机(Support Vector Machine)、文本挖掘(Text Mining)等。这使我们在遇到回归分析失效的情况下,依然具备解决问题的能力。

3.“模型比较(Model Comparison)”是数据挖掘后期的过程中必不可少的一个环节,这样一来,我们就可以科学、客观地从不同的候选模型中找到最理想的模型来做最精准的预测分析,将预测误差降低到最低。

显然,数据挖掘的这三个特征有效地弥补了回归分析的不足,为我们的建模预测工作奠定了扎实的基础。下面用一个真实案例来说明从回归分析到数据挖掘的实际应用,出于数据安全性的考虑,核心数据(包括变量名称)已做了相应的编码处理。

某知名钢铁公司的研发部门在一个构建结构钢端淬曲线预测模型的项目中,先用用SAS公司面向普通工程师和科学家开发的交互式可视化统计发现软件JMP中的逐步回归做了一个预测模型(见下图)。

从分析报告上来看,这个预测模型还是不错的。但在模型的推广过程中,多次发现预测误差很大,甚至严重动摇了技术人员应用统计建模的信心。所幸在权威咨询机构的指导下,发现造成模型预测失误的主要原因是模型过度拟合,包含了很多不必要拟合的噪声信息。项目成员重新思考了技术攻关中需要用到的方法论,最终决定升级到高级版JMP Pro,没有多做一次现场实验,没有申请任何额外预算,却显著改善了模型的预测效果,达到了预期效果。

从技术细节上来看,项目后期与前期的不同之处也恰巧体现了前面所介绍的

数据挖掘的三大特征,即:

第一,没有囫囵吞枣地把所有数据全都用来构建模型,而是有计划地按照一定比例将所有数据分为训练数据、验证数据、测试数据三类,各类数据各司其职,确保由此产生的模型在生产阶段的有效性。

第二,开拓思路,有机地运用除了回归分析之外的多种数据挖掘建模工具,如决策树、神经网络,以及其衍生工具(如随机森林Bootstrap Forest、提升树Boosted Tree等),避免了由于单一方法的生搬硬套而导致的建模错误。

第三,先松后紧,整合之前求得的各个候选模型,将科学严谨的统计量化指标与实际业务经验相结合,挑选出整体上最合适的预测模型,体现了“博采众长,取长补短”的建模理念。

总之,“从回归分析到数据挖掘”是企业在精细化管理发展到一定阶段后必定会遇到的一个问题。当然,相对于传统的回归分析,数据挖掘会显得相对复杂一些。但是,融合先进算法而关注界面友好的现代化统计分析软件(如案例中用到的JMP Pro软件),已经大大降低了数据挖掘的技术门槛,使得无论是科班出身的统计学家,还是没有统计学功底的普通技术人员,都能快速上手,真正地数据中挖掘出对企业运营有益的信息。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

深度学习巅峰之年:技术、开源、兼并和硬件发展全回顾(附论文合集)

【新智元导读】本文是对2016年深度学习领域的进展的综述和回顾,介绍了2016年该领域的一些重要研究成果,包括无监督学习、增强学习、生成对抗网络等,以及产业中的...

42960
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

31350
来自专栏IT派

2018年十大人工智能技术趋势,人工智能的进步对未来的巨大影响

人工智能是前沿和中心,商界和政府领导人正在思考正确的举措。但是在实验室里发生了什么呢?在实验室里,学术和企业研究人员的发现将为未来一年乃至更长的时间设定人工智能...

12410
来自专栏新智元

UCL汪军团队新方法提高群体智能,解决大规模AI合作竞争

【新智元导读】当前人工智能最大的挑战之一,是如何让多个智能体学会一起完成同一个任务,学会彼此合作和相互竞争。在发表于ICML 2018的一项研究中,伦敦大学学院...

34300
来自专栏新智元

2016:深度学习统治人工智能?附深度学习十大顶级框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起...

37460
来自专栏AI科技大本营的专栏

首发|机器学习未来十年:你需要把握的趋势和热点

CSDN 出品的《2018-2019 中国人工智能产业路线图》V2.0 版即将重磅面世!

13410
来自专栏AI研习社

为什么吴恩达认为未来属于迁移学习?

AI研习社按:日前,知名 AI 博主、爱尔兰国立大学 NLP 博士生 Sebastian Ruder 以 “迁移学习:机器学习的下一个前线” 为题,对迁移学习的...

30330
来自专栏新智元

今日头条李磊:用机器学习做自然语言理解,实现通用 AI 仍需解决三大难题(33PPT下载)

1 新智元原创 【新智元导读】10月18日,在中国自动化学会与新智元联合主办的 2016世界人工智能大会上,今日头条科学家、头条实验室总监李磊博士受邀发表...

45660
来自专栏null的专栏

[置顶] 《Python机器学习算法》的写作历程

前言 首先,感谢各位支持我博客的同学,你们的支持是我一直努力的动力,正是因为你们的支持,才有了《Python机器学习算法》一书的面世: ? 目前,该书已经可以在...

44050
来自专栏量子位

旷视首席科学家孙剑:计算机视觉的变革和挑战 | 北大AI公开课笔记

周三晚,北京大学“人工智能前沿与产业趋势”第三讲,本期旷视研究院院长孙剑授课主题为“计算机视觉的变革与挑战”,分享了计算机视觉和深度学习领域的一些研究进展。

13450

扫码关注云+社区

领取腾讯云代金券