穿衣五步法戏说数据分析方法

数据分析方法论:按照业务理解、数据理解、数据准备、建立模型、评估、部署六个步骤循环迭代开展。

业务理解

了解项目的要求和最终目的,并将这些目的与数据挖掘的定义以及结果结合起来。主要包括:确定目标,发现影响结果的重要因素,查找所有的资源、局限、设想以及在确定数据分析目标和项目方案时考虑到的各种其他的因素,接下来确定数据挖掘的目标,制定项目计划。包括:

1.确定业务目标。包括业务目标、分析成功标准等。

2. 场景评估。包括组织拥有数据资源、需求假定和限制、风险偶然性、专业术语、成本收益等。

3. 确定数据挖掘目标。包括数据挖掘目标、数据挖掘效果判断方法。

4. 制订计划、工具和方法等。

数据理解

数据理解始于数据的收集工作,对数据进行装载,描绘数据,探索数据基本特征,进行简单的特征统计,探测数据中比较相关联的数据子集,进而形成对潜在信息的假设,检验数据的质量,包括数据的完整性和正确性,缺失值的填补等。

1.收集原始数据,产生数据收集表。

2.数据描述,产生数据描述表。

3.数据探索性分析,产生探索性数据分析表。

4.数据质量描述,产生数据质量表。

数据准备

数据准备包括从原始粗糙数据中构建最终数据集的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。根据与挖掘目标的相关性,数据质量以及技术限制,选择作为分析使用的数据,并进一步对数据进行清理转换,构造衍生变量,整合数据,并根据工具的要求,格式化数据。不是所有数据都适合数据挖掘,在数据准备阶段要确定数据挖掘应该包含及剔除的数据。

1. 数据清理。在建立模型之前,必须对数据进行适当的清理。即对不符合实际情况的数据进行调整或者剔除,并生成数据清理报告。

2. 数据重构。生成新的字段和记录。

3. 数据整合。对相关的数据进行合并处理。

4. 数据格式化。使之适合数据挖掘的需要。

建立模型

在这一阶段,各种各样的建模方法将被选择和使用。通过建立模型,评估模型将其参数校准为最为理想的值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。如果有多重技术要使用,那么在这一任务中,对于每一个要使用的技术要分别对待。

1. 选择建模技术。模型的假定和要求以及对模型技术进行评估。

2. 产生检验设计。从技术角度分析如何对模型效果进行检验。

3. 建立模型。完成模型参数的设定,建立模型并对模型做适用性概述。

评估

从数据分析的角度考虑,在这一阶段中,已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,要更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到了主要目标。一个关键的评价指标就是看,是否仍然有一些重要的问题还没有被充分地加以注意和考虑。

1. 结果评估。评估产生的数据挖掘模型,从中筛选出被认可的数据 挖掘模型。

2. 数据挖掘过程回顾。查找是否存在疏忽和遗漏之处。

3. 确定下一步的工作内容。列出所有可能的行动方案,以进行决策。

部署

即将发现的结果以及过程组织成为可读文本形式。尽管建模是为了增加更多有关于数据的信息,但这些信息仍然需要以一种能够被使用的方式被组织和呈现。根据需求的不同,部署阶段可以是仅仅像写一份报告那样简单,也可以像可重复的数据挖掘程序那样复杂。

1. 结果发布。

2.监测和维护模型计划。随着业务环境的变化,模型的适用性和效果也可能发生改变,必须建立对模型进行监测和维护的机制。

3. 生成最终的数据挖掘报告。

4. 项目回顾。总结项目中的经验教训,为以后的数据挖掘项目进行经验积累。

一如既往,期待您的真知灼见……

欢迎扫码,期待您的沟通与交流!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181024G0JK8H00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券