笔者邀请您,先思考:
1 信用评分卡如何做数据准备?
2 您怎么理解探索性数据分析?如何做探索性数据分析?
“垃圾进出垃圾”是计算机科学中常用的公理,也是对项目成功的威胁 - 输出质量在很大程度上取决于输入的质量。
因此,**数据准备是任何数据挖掘项目的关键方面,包括信用评分卡的开发。 **这是CRISP-DM周期中最具挑战性和耗时的阶段。 项目总时间中至少70%,有时多于90%专门用于此项活动。 它涉及数据收集,结合多个数据源,聚合,转换,数据清理,“切片和切块”,并查看数据的广度和深度,以获得清晰的理解并将数据量转换为数据质量,从而使我们 可以自信地准备下一阶段 - 模型建设。
本系列的前一篇文章中,信用评分卡建模方法论讨论了模型设计的重要性,并确定了其主要组成部分,包括分析单元,总体框架,样本量,标准变量,建模窗口,数据源和数据收集方法。 仔细考虑每个组件对于成功的数据准备至关重要。 这个阶段的最终产品是一个挖掘视图,包括正确的分析层级,总体建模,自变量和因变量。
表1.模型设计组件
“越多越好” - 作为数据理解步骤的一部分,任何外部和内部数据源都应提供数量和质量。 所使用的数据必须是相关的,准确的,及时的,一致的和完整的,同时具有足够多样的数量以提供有用的分析结果。 对于内部数据量有限的申请评分卡,外部数据普遍存在。 相比之下,行为评分卡使用更多的内部数据,并且在预测能力方面通常较高。 以下概述了客户验证,欺诈检测或信用授权所需的常见数据源。
表2.数据源多样性
数据准备过程从数据收集开始,通常称为ETL过程(Extract-Transform-Load)。 数据集成使用数据合并和串联组合不同的数据源。 通常,它需要使用许多完整性规则(如实体,参照和域完整性)来处理关系表。 使用一对一,一对多或多对多的关系,数据被汇总到所需的分析水平,从而生成独特的客户签名。
图1.数据准备过程
数据探索和数据清理是相互重复的步骤。 数据探索包括单变量和双变量分析,范围从单变量统计和频率分布到相关性,交叉列表和特征分析。
图2. EDA(单变量视图)
图3. EDA(特征分析)
在探索性数据分析(EDA)之后,对数据进行处理以提高质量。 ** 数据清理**需要良好的业务和数据理解,才能以正确的方式解读数据。 这是一个反复的过程,旨在消除不规则行为,并酌情替换,修改或删除这些不规则行为。 *数据不干净的两个主要问题是缺失值和异常值; 这两者都会严重影响模型的准确性,因此必须细心干预。*
在决定如何处理缺失值之前,我们需要了解缺失数据的原因并理解缺失数据的分布情况,以便我们可以将其分类为:
随机完整性缺失(MCAR); 随机缺失(MAR)或; 非随机性缺失(MNAR)。 缺少数据处理通常假定MCAR和MAR,而NMAR更难以处理。 下面的列表提供了按复杂程度排序的常见处理。
表3.缺失数据处理
在我们的数据中,异常值是另一种“野兽”,因为它们的存在会违背我们开发模型的统计假设。一旦确定,在应用任何处理之前理解异常值的原因很重要。例如,异常值可能是欺诈检测中有价值的信息来源;因此,用平均值或中值代替它们是一个不好的主意。
应该使用单变量和多变量分析来分析异常值。对于检测,我们可以使用视觉方法,如直方图,箱形图或散点图和统计方法,如平均值和标准偏差,通过检查远距离聚类,小决策树叶节点,马氏距离,Cook's D或Grubbs测试。对于什么应该被视为异常值的判断并不像识别缺失值那么简单。决定应基于特定标准,例如:任何超出±3标准偏差或±1.5IQR或第5-95百分位范围的值将被标记为异常值。
离群值可用与缺失值类似的方式处理。还可以使用其他转换,包括:装箱,重量分配,转换为缺失值,对数变换以消除极值或Winsorization的影响。
如上所述,数据清理可能涉及实现不同的统计和机器学习技术。尽管这些转换可能会创建更优质的评分卡模型,但实际操作必须考虑到,因为复杂的数据操作可能难以实施,成本高昂并且会降低模型处理性能。
一旦数据清洗完毕,我们就可以做出更有创意的部分 - 数据转换。数据转换或特征工程是创建附加(假设)模型变量,并对其进行重要性测试。最常见的转换包括分箱和优化分箱,标准化,缩放,热编码,交互项,数学转换(从非线性转换为线性关系,从倾斜数据转换为正态分布数据)以及使用聚类和因子分析进行数据缩减。
除了关于如何解决这一任务的一些一般性建议之外,数据科学家有责任建议将客户数据签名转化为强大信息人造物的最佳方法 - 挖掘视图。这可能是数据科学家角色中最具创造性和最具挑战性的方面,因为除了统计和分析技能之外,它还需要牢固掌握业务理解。通常,创建好模型的关键不在于具体建模技术的力量,而在于衍生变量的广度和深度,这些变量代表了对被审查现象更高水平的知识。
接下来的是特征创造的艺术……
系列之前:信用评分:第2部分 - 信用评分卡建模方法
系列之后:信用评分:第4部分 - 变量选择
作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt3
版权声明:作者保留权利,严禁修改,转载请注明原文链接。