数据挖掘模型生命周期管理

为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估。挖掘模型生命周期过程是由以下阶段组成的高效交替过程。

  • 确定商业目标

最初的阶段集中在理解项目目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划。确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。

典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。

  • 数据理解

数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,检查数据的质量,初步发现数据的特征,或是探测引起兴趣的样本子集去构建隐含信息的假设。

影响数据质量的几个主要问题包括:缺失值、不合理值、不同数据源的不一致、异常值。

  • 数据准备

数据准备(预处理)阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将作为模型工具的输入值。这个阶段的任务有时一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

现实中的数据通常是不完整的、不一致的、含噪声,污染数据的普遍存在导致了数据清理的必要性,所谓“垃圾进垃圾出”。形成污染数据的原因包括:滥用缩写词、数据输入错误、不同的惯用语、重复记录、缺失值、不同的计量单位等。

  • 建立模型

选择和应用不同的模型技术,调整模型参数到最佳值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。

  • 模型评估

在最后部署模型之前,重要的事情是较彻底地评估模型。检查构造模型的步骤,确保模型可以达成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,关于数据挖掘结果使用的一个决定必须达成共识。

随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。

  • 结果发布

通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担实施的工作。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏应兆康的专栏

10. 用开发集和评估指标来加速迭代

1931
来自专栏新智元

Science:用机器学习发现贫穷,准确率高达99%

要解决世界上的问题,必须知道问题发生在哪里。因此,联合国要解决世界贫困问题,追踪非洲的贫困情况就非常重要。然而,实地搜集数据可能很危险,而且效率缓慢、成本高。但...

39710
来自专栏人工智能头条

构建实战机器学习系统的10点经验(二)

1343
来自专栏IT派

推荐|不知道这些AI知识,千万别说你是AI圈的!

摘要: 为什么人工智能,机器学习突然之间成了热门话题,变成IT领域,甚至其他领域的人们都在讨论的热点?也许文章的作者会给你一点这方面的思考。 最近,我有幸与人...

3856
来自专栏钱塘大数据

麦肯锡用数据说明,关于深度学习有120个商业机会

麦肯锡研究发布了深度学习将影响的12个领域,每个领域又分为10个方面。换言之,这就是深度学习的120个商业机会。 有理由相信,深度学习将彻底改变以下提及的这1...

33610
来自专栏应兆康的专栏

10. 用开发集和评估指标来加速迭代

对于一个新问题,事先是很难知道用什么方法解决它是最合适的。即使机器学习经验丰富的研究员也需要尝试许多,才能得到令自己满意的东西。在构建机器学习系统时,我经常会:

2998
来自专栏新智元

【麦肯锡】分析时代:数据驱动世界中的竞争力之深度学习篇

【新智元导读】 麦肯锡近日发布了一份长达136页的报告——《分析时代:数据驱动世界中的竞争力》。报告正文分为5个部分:1. 数据和分析的革命的动力;2.仍然还...

3348
来自专栏云市场·精选汇

AI学院 | 人工智能基本知识概览

人工智能(Artificial Intelligence):缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

906
来自专栏镁客网

黑科技 | CMU研制新一代智能工业机器人,通过触摸来认识这个世界

1374
来自专栏企鹅号快讯

AI、机器学习和深度学习的关系及区别

作者:Rahul Sharma 来源:http://techgenix.com/author/rsharma/ 编译:FintechProbe 人工智能不再是科...

2188

扫描关注云+社区