【应用】信用评分:第6部分 - 分割和拒绝推断

笔者邀请您,先思考:

1 信用评分卡如何做分割?

2 信用评分卡如何解决拒绝推断?

“细分和拒绝推断,还是保持简单? - 这是个问题!” 本文探讨了计分卡开发过程中经常需要解决的另外两个方面:分割和拒绝推理(RI)。

分割

多少个评分卡? 标准是什么? 最佳做法是什么? - 是我们试图在评分卡开发早期回答的常见问题,从识别和证明评分卡数量的过程开始 - 称为分割。

图1.评分卡分割

初步分割预评估是在业务见解分析期间进行的。 在这个阶段,企业应该被告知任何可能具有不同特征的异质人口群体,这些群体不可能作为一个单独的群体来对待,以便早日做出有关接受多个评分卡的商业决策。

分割的业务驱动因素是:(1)市场营销,如产品供应或新市场;(2)跨不同客户群体的不同对待,例如基于人口统计;(3)数据可用性,这意味着不同的数据可能通过不同的营销渠道提供,或者某些客户群可能没有可用的信用记录。

分割的统计驱动因素假设每个细分市场中都有足够数量的观察值,包括“好”和“坏”账户,并且每个细分市场都包含交互效应,其中预测模式在细分市场各不相同。

通常,分割过程包括以下步骤:

  • 使用有监督或无监督分割来识别简单的分割模式。
  • 对于有监督的分割,决策树通常用于识别潜在的细分并捕捉交互效应。或者,来自整体模型的残差可用于检测数据中的交互。
  • 可以使用非监督式分割(如聚类)创建分割,但此方法不一定捕获交互效果。
  • 为每个细分确定一组候选预测变量。
  • 根据每个细分建立独立的模型。
  • 测试:
  • 如果分割模型具有不同的预测模式,不能确定跨越分割的新预测特征,则表明数据科学家应寻找更好的分割或建立单一模型。
  • 如果分割模型具有相似的预测模式,但在跨越分割时具有显着不同的幅度或相反效果。
  • 如果分割模型与建立在整个人口中的单一模型相比,在预测能力方面产生了卓越的提升。

细分是一个迭代过程,需要不断的判断来确定是使用单个还是多个细分。从实践者的经验来看,细分很少会导致显着的提升,并且应该尽一切努力来制作单一的记分卡。用于避免分割的常用方法包括在逻辑回归中添加其他变量以捕捉交互效应或者识别每个分段最具预测性的变量并将它们组合成单个模型。

独立的记分卡通常是独立建造的。但是,如果模型因素的可靠性是一个问题,父母/孩子模型可能会提供一种替代方法。在这种方法中,我们根据共同特征开发了父母模型,并将模型输出用作其子模型的预测变量,以补充儿童群体的独特特征。

与单个评分卡相比,多个评分卡的主要目标是提高风险评估的质量。如果分段评分卡为业务提供的显著价值能够超过较高的开发和实施成本,决策管理流程的复杂性,评分卡的额外管理以及更多地使用IT资源,才能使用分段评分卡。

拒绝推断

如果建模仅基于具有已知性能的可接受总体,则申请评分卡具有自然发生的选择偏差。然而,由于他们未知的表现,从建模过程中排除了一大批被拒绝的客户。 为了解决选择偏差问题,申请评分卡模型应该包含两个人群。 这意味着需要推断拒绝的未知性能,这是使用拒绝推断(RI)方法完成的。

图2.接受和拒绝人群

有无拒绝推断? - 有两种思想观点:那些认为RI是恶性循环的人,推断拒绝者的表现将基于批准但有偏见的人群,从而导致拒绝推断的可靠性降低; 以及那些主张RI方法论是有价值的方法,它对模型的性能有利。

如果使用RI,在评分卡开发过程中还需要一些额外的步骤:

  1. 在接受方上构建逻辑回归模型 - 这是base_logit_model
  2. 使用拒绝推断技术推断拒绝
  3. 将接受和推断拒绝合并成一个数据集(complete_population)
  4. 在complete_population上构建一个新的逻辑回归模型 - 这是final_logit_model
  5. 验证final_logit_model
  6. 根据final_logit_model创建一个评分卡模型

图3.使用拒绝推断开发评分卡

拒绝推断是一种缺失值处理形式,其结果是“非随机性缺失”(MNAR),导致接受和拒绝人群之间存在显着差异。 有两种广泛的方法来推断缺失的表现:分配和增强,每种方法都有不同的技术。 两种方法中最流行的技术是比例分配,简单和模糊增强和parcelling。

表1.拒绝推断技术

比例分配是将拒绝对象随机划分为“好”和“差”的账户,其“坏”比率比公认的人群高两至五倍。

简单增强假定使用base_logit_model对拒绝进行评分,并根据截止值将其分为“好”和“坏”帐户。截止值被选择为使得拒绝者的不合格率比接受者中大2至5倍。

模糊增强假定使用base_logit_model对拒绝进行评分。每条记录都有效地复制,其中包含加权“坏”和加权“好”组件,二者均来自拒绝评分。这些权重,以及所有接受权重等于“1”的权重,将在final_logit_model中使用。建议的策略是拒收率比接受者高两到五倍。

Parcelling是一种包含简单增强和比例分配的混合方法。通过将使用base_logit_model生成的拒绝分数分箱成分数带中来创建parcel。比例分配适用于每个parcel,其“坏”比率是被接受人口的等值分数带中的“坏”率的两倍至五倍。

图4.比例分配

图5.简单增强

图6.模糊增强

图7. Parcelling

系列之前:信用评分:第5部分 - 评分卡开发

系列之后:信用评分:第7部分 - 信用风险模型的进一步考虑

作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt6

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2018-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

深度学习 vs. 大数据:神经网络权值的版权属于谁?

【编者按】深度神经网络能够焕发新春,大数据功不可没,然而大数据的版权是否应当延伸到深度学习产生的知识,这是一个现实的问题。本文通过ImageNet可视化大数据、...

22760
来自专栏小詹同学

人脸识别(一)——从零说起

人脸识别的英文名称是 Face Recognition,前段时间查找资料学的时候发现,不少人将人脸识别和人脸检测(Face Detection)混为一谈,很大...

483100
来自专栏ATYUN订阅号

伯克利人工智能研究:基于模型的强化学习与神经网络动力学

让机器人在现实世界中自主行动是很困难的。即使拥有昂贵的机器人和世界级的研究人员,机器人在复杂的、非结构化的环境中仍然难以自主导航和交互。 ? ? 图1:一个学习...

38350
来自专栏目标检测和深度学习

从基础概念到数学公式,这是一份520页的机器学习笔记(图文并茂)

16540
来自专栏小小挖掘机

IJOC“考虑聚合多样性的可扩展优化推荐系统”论文解析

本文是针对发表在《INFORMS Journal on Computing》上的一篇论文 “Incorporating Aggregate Diversity...

27930
来自专栏AI科技评论

学界 | 伯克利 AI 实验室博客发布首篇文章:让神经网络自行选择模块,实现动态推理

深度神经网络虽然在图像,语音,机器人等方面取得了巨大的成功,但是这些成功通常局限在识别任务或者生成任务中,对于推理任务,常规的神经网络通常是无能为力的。伯克利A...

34790
来自专栏小詹同学

人脸识别(一)——从零说起

这是关于人脸的第①篇原创!(源码在第三篇) 人脸识别的英文名称是 Face Recognition,前段时间查找资料学的时候发现,不少人将人脸识别和人脸检测(...

689100
来自专栏人工智能头条

深度学习 vs. 大数据:神经网络权值的版权属于谁?

14050
来自专栏企鹅号快讯

误区解读:ML和DL之间的区别和使用情况

【IT168 资讯】深度学习是机器学习的一个子集,都是人工智能的子集。机器学习与深度学习不完全属于一个拳击淘汰赛中,深度学习是机器学习的一个子集,而它们都是人工...

26480
来自专栏镁客网

黑科技 | 看不清摸不著还能识别出物体,目标算法让机器人更聪明

18340

扫码关注云+社区

领取腾讯云代金券