专栏首页数据科学与人工智能【应用】信用评分:第3部分 - 数据准备和探索性数据分析

【应用】信用评分:第3部分 - 数据准备和探索性数据分析

笔者邀请您,先思考:

1 信用评分卡如何做数据准备?

2 您怎么理解探索性数据分析?如何做探索性数据分析?

“垃圾进出垃圾”是计算机科学中常用的公理,也是对项目成功的威胁 - 输出质量在很大程度上取决于输入的质量。

因此,**数据准备是任何数据挖掘项目的关键方面,包括信用评分卡的开发。 **这是CRISP-DM周期中最具挑战性和耗时的阶段。 项目总时间中至少70%,有时多于90%专门用于此项活动。 它涉及数据收集,结合多个数据源,聚合,转换,数据清理,“切片和切块”,并查看数据的广度和深度,以获得清晰的理解并将数据量转换为数据质量,从而使我们 可以自信地准备下一阶段 - 模型建设。

本系列的前一篇文章中,信用评分卡建模方法论讨论了模型设计的重要性,并确定了其主要组成部分,包括分析单元,总体框架,样本量,标准变量,建模窗口,数据源和数据收集方法。 仔细考虑每个组件对于成功的数据准备至关重要。 这个阶段的最终产品是一个挖掘视图,包括正确的分析层级,总体建模,自变量和因变量。

表1.模型设计组件

数据源

“越多越好” - 作为数据理解步骤的一部分,任何外部和内部数据源都应提供数量和质量。 所使用的数据必须是相关的,准确的,及时的,一致的和完整的,同时具有足够多样的数量以提供有用的分析结果。 对于内部数据量有限的申请评分卡,外部数据普遍存在。 相比之下,行为评分卡使用更多的内部数据,并且在预测能力方面通常较高。 以下概述了客户验证,欺诈检测或信用授权所需的常见数据源。

表2.数据源多样性

过程

数据准备过程从数据收集开始,通常称为ETL过程(Extract-Transform-Load)。 数据集成使用数据合并和串联组合不同的数据源。 通常,它需要使用许多完整性规则(如实体,参照和域完整性)来处理关系表。 使用一对一,一对多或多对多的关系,数据被汇总到所需的分析水平,从而生成独特的客户签名。

图1.数据准备过程

数据探索和数据清理是相互重复的步骤。 数据探索包括单变量和双变量分析,范围从单变量统计和频率分布到相关性,交叉列表和特征分析。

图2. EDA(单变量视图)

图3. EDA(特征分析)

在探索性数据分析(EDA)之后,对数据进行处理以提高质量。 ** 数据清理**需要良好的业务和数据理解,才能以正确的方式解读数据。 这是一个反复的过程,旨在消除不规则行为,并酌情替换,修改或删除这些不规则行为。 *数据不干净的两个主要问题是缺失值和异常值; 这两者都会严重影响模型的准确性,因此必须细心干预。*

在决定如何处理缺失值之前,我们需要了解缺失数据的原因并理解缺失数据的分布情况,以便我们可以将其分类为:

随机完整性缺失(MCAR); 随机缺失(MAR)或; 非随机性缺失(MNAR)。 缺少数据处理通常假定MCAR和MAR,而NMAR更难以处理。 下面的列表提供了按复杂程度排序的常见处理。

表3.缺失数据处理

在我们的数据中,异常值是另一种“野兽”,因为它们的存在会违背我们开发模型的统计假设。一旦确定,在应用任何处理之前理解异常值的原因很重要。例如,异常值可能是欺诈检测中有价值的信息来源;因此,用平均值或中值代替它们是一个不好的主意。

应该使用单变量和多变量分析来分析异常值。对于检测,我们可以使用视觉方法,如直方图,箱形图或散点图和统计方法,如平均值和标准偏差,通过检查远距离聚类,小决策树叶节点,马氏距离,Cook's D或Grubbs测试。对于什么应该被视为异常值的判断并不像识别缺失值那么简单。决定应基于特定标准,例如:任何超出±3标准偏差或±1.5IQR或第5-95百分位范围的值将被标记为异常值。

离群值可用与缺失值类似的方式处理。还可以使用其他转换,包括:装箱,重量分配,转换为缺失值,对数变换以消除极值或Winsorization的影响。

如上所述,数据清理可能涉及实现不同的统计和机器学习技术。尽管这些转换可能会创建更优质的评分卡模型,但实际操作必须考虑到,因为复杂的数据操作可能难以实施,成本高昂并且会降低模型处理性能。

一旦数据清洗完毕,我们就可以做出更有创意的部分 - 数据转换。数据转换或特征工程是创建附加(假设)模型变量,并对其进行重要性测试。最常见的转换包括分箱和优化分箱,标准化,缩放,热编码,交互项,数学转换(从非线性转换为线性关系,从倾斜数据转换为正态分布数据)以及使用聚类和因子分析进行数据缩减。

除了关于如何解决这一任务的一些一般性建议之外,数据科学家有责任建议将客户数据签名转化为强大信息人造物的最佳方法 - 挖掘视图。这可能是数据科学家角色中最具创造性和最具挑战性的方面,因为除了统计和分析技能之外,它还需要牢固掌握业务理解。通常,创建好模型的关键不在于具体建模技术的力量,而在于衍生变量的广度和深度,这些变量代表了对被审查现象更高水平的知识。

接下来的是特征创造的艺术……

系列之前:信用评分:第2部分 - 信用评分卡建模方法

系列之后:信用评分:第4部分 - 变量选择

作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt3

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren),作者:数据人网

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【数据科学家】作为数据科学家最重要的是什么?Being Curious

    视频是海量的,看视频的人也是海量的,无疑解释人们视频消费行的数据也是海量的,优化视频内容以迎合受众的口味是 Ooyala 公司业务的关键内容,其客户中就有 Fo...

    陆勤_数据人网
  • 大数据,小数据,哪道才是你的菜?

    美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:“技术是总是配“套”而...

    陆勤_数据人网
  • 数据应用指南:数据从哪里来?

    数据如何应用?值得思考、探索和实践! ---- 一切可记录的东西,就是数据。数据从哪里来?找到了源头,才好进行数据获取、整合、分析和应用。 数据从哪里来? ...

    陆勤_数据人网
  • 2013年12月第三周大数据情报分析:互联网企业意气风发

    前几年大家都在讨论数据库,这两年大家都在讨论大数据,这两者都覆盖海量信息的意思,那么何谓大数据?首先还是从数据库说起,首先是表格化的数据处理,然后到debase...

    人称T客
  • 大数据,未来已来

    在过去的时间里,我们听到越来越多的公司,在越来越多的行业里,用着他们的内外部数据,用他们的大数据处理技术,帮助用户解决了他们的问题。

    华章科技
  • 大数据?只是个概念吗?

    但无论技术如何迭代更新,最终都将应用到实际场景之内,那些所谓的风口,会在冷静期后沉淀,最终为“人”所利用,提供真正的价值。

    齿轮易创说互联网
  • 数据变现的历史与未来

    大数据文摘
  • 如何使用R语言解决可恶的脏数据

    在数据分析过程中最头疼的应该是如何应付脏数据,脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误,所以必须谨慎的处理那些脏数据。 脏数据的存在形式主要有如下...

    小莹莹
  • 阿里车品觉:大数据时代的若干新思考

    大数据文摘
  • 过去1年大数据领域薪资有多高?

    互联网在经历前几年的繁荣之后,现在开始进入寒冬,资本家不再像以前那样大胆地投资,纷纷攥紧自己的口袋。但是从整个互联网行业来看,大数据却一枝独秀,逐渐崛起。

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券