数据挖掘模型生命周期管理

为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估。挖掘模型生命周期过程是由以下阶段组成的高效交替过程。

  • 确定商业目标

最初的阶段集中在理解项目目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划。确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。

典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。

  • 数据理解

数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,检查数据的质量,初步发现数据的特征,或是探测引起兴趣的样本子集去构建隐含信息的假设。

影响数据质量的几个主要问题包括:缺失值、不合理值、不同数据源的不一致、异常值。

  • 数据准备

数据准备(预处理)阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将作为模型工具的输入值。这个阶段的任务有时一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

现实中的数据通常是不完整的、不一致的、含噪声,污染数据的普遍存在导致了数据清理的必要性,所谓“垃圾进垃圾出”。形成污染数据的原因包括:滥用缩写词、数据输入错误、不同的惯用语、重复记录、缺失值、不同的计量单位等。

  • 建立模型

选择和应用不同的模型技术,调整模型参数到最佳值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。

  • 模型评估

在最后部署模型之前,重要的事情是较彻底地评估模型。检查构造模型的步骤,确保模型可以达成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,关于数据挖掘结果使用的一个决定必须达成共识。

随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。

  • 结果发布

通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担实施的工作。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【PPT详解】曹欢欢:今日头条算法原理

作者:曹欢欢博士 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从...

9067
来自专栏程序员宝库

今日头条算法原理(全)

▲3分钟了解今日头条推荐算法原理 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条...

3166
来自专栏AI研习社

NLP 解决方案是如何被深度学习改写的?

AI 研习社:英特尔人工智能产品事业部,数据科学主任 Yinyin Liu 近日撰写了一篇文章,介绍了深度学习为自然语言处理带来的种种变化。有趣的大趋势是首先产...

1072
来自专栏AI科技评论

学界 | NLP解决方案是如何被深度学习改写的?

AI 科技评论按:英特尔人工智能产品事业部,数据科学主任 Yinyin Liu 近日撰写了一篇文章,介绍了深度学习为自然语言处理带来的种种变化。有趣的大趋势是首...

853
来自专栏AI科技大本营的专栏

全解今日头条大数据算法原理(附PPT & 视频)

3分钟了解今日头条推荐算法原理 来源 | 今日头条 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑...

3976
来自专栏机器学习算法与Python学习

全面解析今日头条大数据算法原理(附PPT&视频)

1453
来自专栏安全领域

对大数据和物联网环境中数据科学自动化的见解

数据科学在任何大数据研究实践或物联网(IoT)环境中位于核心地位。数据科学涉及广泛的技术,商业和机器学习算法。数据科学的目的不仅仅在于机器学习或统计分析,而在于...

3525
来自专栏数据派THU

全解今日头条大数据算法原理(附PPT&视频)

来源:今日头条 通过本文为大家从4个方面介绍今日头条推荐系统的算法原理。 3分钟了解今日头条推荐算法原理 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交...

4004
来自专栏机器学习算法与Python学习

今日头条推荐算法详解(PDF下载)

源 | AI研习社 编辑 | 昱良 内容较长 点击阅读原文即可下载 ? 今日头条资深算法架构师曹欢欢: ? 本次分享将主要介绍今日头条推荐系统概览以及内容分析、...

1.4K9
来自专栏机器之心

专栏|阿里妈妈资深技术专家刘凯鹏解读基于深度学习的智能搜索营销

机器之心专栏 作者:刘凯鹏 本文结合阿里电商业务场景的特点,介绍了阿里在匹配端和排序端的基于深度学习的一些工作。 搜索营销(sponsored search)是...

3385

扫码关注云+社区