前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【应用】信用评分卡 : 变量选择

【应用】信用评分卡 : 变量选择

作者头像
陆勤_数据人网
发布2018-10-08 15:58:05
7610
发布2018-10-08 15:58:05
举报
文章被收录于专栏:数据科学与人工智能

笔者邀请您,先思考:

1 信用评分卡如何做变量选择?

2 信用评分卡如何做特征工程?

上一篇:信用评分卡:分类问题

预测分析中的变量选择

下面的故事可以追溯到我开始从物理到商业的转变。我在周五晚上的派对上遇到了这位投资银行家。喝完几品脱啤酒后,他的情绪变得有些阴沉,他告诉我他是如何讨厌他的工作。然而,他有一个计划知道工作到45岁退休。然后他会做一切让他开心的事情。我很困惑,那么一个人怎么能从一种情感(幸福)中摆脱这么多年,并在以后重新发现?我想知道幸福的秘诀 - 玫瑰上的雨滴和小猫上的胡须。一个人的幸福是一件棘手的事情;然而,我将在后面的关于逻辑回归的文章中尝试解决这个问题。现在,让我们尝试探索国家如何衡量其人民的集体福利。我将利用这一人口福祉主题来探索分析记分卡开发中的一个有趣话题:变量选择。

变量选择 - GDP和GNH的教训

经济学家和电视频道一直支持的最流行的衡量国家繁荣的标准是是国内生产总值(GDP)。 如宏观经济学101所教授的衡量国内生产总值的等式是:

显然,根据这个等式,有5个因素/变量影响GDP。 首先把国内生产总值作为衡量国家福利的手段,对我来说似乎并不完整。 GDP的所有变量都来自商业。 它们很重要,但不能成为国家幸福的唯一因素,在印度这样一个高度多样化和复杂的国家更是如此。

国民幸福总指数 - Bhutan Naresh的故事

好的,那我们还有什么? 一个鲜为人知的指标是国民幸福总值(GNH)。 GNH的起源在不丹。 他们通过GNH衡量他们国家的进步。 这个词是由Jigme Singye Wangchuck创造和实施的。 这个名字立即让我回到九十年代初期由印度国家广播公司Doordarshan(DD)进行的南盟高峰会电视直播。 老前辈的印地语评论员指的是一位穿着类似浴袍的谦逊男子,如不丹的国王“不丹之王”(Bhutan Naresh)。 乍一看,他与南亚地区的权力马匹并不配合。 尽管如此,他似乎设计了一个更全面的指标来衡量他的国家的福祉。 GNH是以下大类的组合:

1.生活水平和收入 2.健康覆盖 3.生理健康 4.工作和放松的时间 5.好的政府 6.上学和教育 7.文化多样性 8.社区活力 9.环境保护主义和保守主义

GNH中总共有72个变量以0到1的比例进行衡量,例如每天的睡眠时间和对媒体的信任; 嗯,不是一个糟糕的开始! 你可以自己研究GNH,让我知道你对它的看法。 实际上,我们可以为GNH度量标准制定出我们自己的公式。 这个想法是选择正确的变量来建立你的模型!

信用评分中的变量选择

在数据挖掘和统计模型构建练习中,类似于信用评分,变量选择过程通过统计显着性来执行 - 通过先进软件的合理自动化过程。 但是,这些变量仍然由人类创建和测量。 企业高影响力分析仍然受到预期驱动,人类智慧尚未过时。

在我与一家金融机构合作的项目之一中,信用风险分析和评分的结果导致了对申请表的重新设计。 申请表是与借款人有关的数据收集的主要来源。 但是,没有人愿意填写冗长的表格,因此表格的最佳尺寸可确保借款人提供准确的信息。 这个想法是选择正确的变量并确保准确的测量。

关于变量有几个方面,但我会在这里提及其中的一个(粗分类)。

信用评分中的粗分类

作为一个孩子,我最喜欢的活动之一就是去鞋店,并且在学校开学之前每个夏天都要测量一下脚步。 鞋店有一个奇怪的微型滑动装置来测量脚的大小。 看到我的脚每年或每两年从一种尺寸增长到另一种尺寸是很有趣的。 增长是量化的,即你的规模为2或3,从不是2.5或2.7。 将诸如2.5和2.7之类的度量转换为3的这一方面称为分组,分组或分类。 这是创建记分卡的重要组成部分,您可以在本博客系列第一部分列出的所有书籍中找到这些记分卡。

在整个职业生涯中,我一直是关于粗糙阶级在记分卡开发中的相关性的几次激烈讨论的一部分。在绝大多数情况下,如果不是所有的学术文章,在模型开发过程中,您都很难将粗分类看作技术。不少理论家和实践者有理由相信,粗分类会导致信息的丢失。但是,在我看来,粗略分类比使用变量的原始测量具有以下优势。

1.它减少了原始变量中存在的随机噪声 - 类似于平均值,是的,你在这里丢失了一些信息。 2.它处理极端事件 - 在变量的两个极端 - 更好的地方你有精简数据。 3.它处理依赖变量和自变量之间的非线性关系,而无需分析人员进行大量的变量转换。

我们在“分析记分卡开发”这个系列的一半中,我很享受写这个彻底。 我希望作为一个读者,你也是这样。 记分卡建设技术性很强,我试图用易于理解的例子来讨论某些方面。 但是,为了管理文章的篇幅,我无法详细介绍。 我必须说我喜欢细节! 所以,如果您有任何疑问,观点或建议请留言。

下一篇:信用评分卡:高级分析

作者:Roopam Upadhyay 原文链接: http://ucanalytics.com/blogs/credit-scorecards-variables-selection-part-3/

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 预测分析中的变量选择
  • 变量选择 - GDP和GNH的教训
  • 国民幸福总指数 - Bhutan Naresh的故事
  • 信用评分中的变量选择
  • 信用评分中的粗分类
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档