前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【应用】信用评分:第6部分 - 分割和拒绝推断

【应用】信用评分:第6部分 - 分割和拒绝推断

作者头像
陆勤_数据人网
发布2018-07-30 16:46:22
1.3K0
发布2018-07-30 16:46:22
举报

笔者邀请您,先思考:

1 信用评分卡如何做分割?

2 信用评分卡如何解决拒绝推断?

“细分和拒绝推断,还是保持简单? - 这是个问题!” 本文探讨了计分卡开发过程中经常需要解决的另外两个方面:分割和拒绝推理(RI)。

分割

多少个评分卡? 标准是什么? 最佳做法是什么? - 是我们试图在评分卡开发早期回答的常见问题,从识别和证明评分卡数量的过程开始 - 称为分割。

图1.评分卡分割

初步分割预评估是在业务见解分析期间进行的。 在这个阶段,企业应该被告知任何可能具有不同特征的异质人口群体,这些群体不可能作为一个单独的群体来对待,以便早日做出有关接受多个评分卡的商业决策。

分割的业务驱动因素是:(1)市场营销,如产品供应或新市场;(2)跨不同客户群体的不同对待,例如基于人口统计;(3)数据可用性,这意味着不同的数据可能通过不同的营销渠道提供,或者某些客户群可能没有可用的信用记录。

分割的统计驱动因素假设每个细分市场中都有足够数量的观察值,包括“好”和“坏”账户,并且每个细分市场都包含交互效应,其中预测模式在细分市场各不相同。

通常,分割过程包括以下步骤:

  • 使用有监督或无监督分割来识别简单的分割模式。
  • 对于有监督的分割,决策树通常用于识别潜在的细分并捕捉交互效应。或者,来自整体模型的残差可用于检测数据中的交互。
  • 可以使用非监督式分割(如聚类)创建分割,但此方法不一定捕获交互效果。
  • 为每个细分确定一组候选预测变量。
  • 根据每个细分建立独立的模型。
  • 测试:
  • 如果分割模型具有不同的预测模式,不能确定跨越分割的新预测特征,则表明数据科学家应寻找更好的分割或建立单一模型。
  • 如果分割模型具有相似的预测模式,但在跨越分割时具有显着不同的幅度或相反效果。
  • 如果分割模型与建立在整个人口中的单一模型相比,在预测能力方面产生了卓越的提升。

细分是一个迭代过程,需要不断的判断来确定是使用单个还是多个细分。从实践者的经验来看,细分很少会导致显着的提升,并且应该尽一切努力来制作单一的记分卡。用于避免分割的常用方法包括在逻辑回归中添加其他变量以捕捉交互效应或者识别每个分段最具预测性的变量并将它们组合成单个模型。

独立的记分卡通常是独立建造的。但是,如果模型因素的可靠性是一个问题,父母/孩子模型可能会提供一种替代方法。在这种方法中,我们根据共同特征开发了父母模型,并将模型输出用作其子模型的预测变量,以补充儿童群体的独特特征。

与单个评分卡相比,多个评分卡的主要目标是提高风险评估的质量。如果分段评分卡为业务提供的显著价值能够超过较高的开发和实施成本,决策管理流程的复杂性,评分卡的额外管理以及更多地使用IT资源,才能使用分段评分卡。

拒绝推断

如果建模仅基于具有已知性能的可接受总体,则申请评分卡具有自然发生的选择偏差。然而,由于他们未知的表现,从建模过程中排除了一大批被拒绝的客户。 为了解决选择偏差问题,申请评分卡模型应该包含两个人群。 这意味着需要推断拒绝的未知性能,这是使用拒绝推断(RI)方法完成的。

图2.接受和拒绝人群

有无拒绝推断? - 有两种思想观点:那些认为RI是恶性循环的人,推断拒绝者的表现将基于批准但有偏见的人群,从而导致拒绝推断的可靠性降低; 以及那些主张RI方法论是有价值的方法,它对模型的性能有利。

如果使用RI,在评分卡开发过程中还需要一些额外的步骤:

  1. 在接受方上构建逻辑回归模型 - 这是base_logit_model
  2. 使用拒绝推断技术推断拒绝
  3. 将接受和推断拒绝合并成一个数据集(complete_population)
  4. 在complete_population上构建一个新的逻辑回归模型 - 这是final_logit_model
  5. 验证final_logit_model
  6. 根据final_logit_model创建一个评分卡模型

图3.使用拒绝推断开发评分卡

拒绝推断是一种缺失值处理形式,其结果是“非随机性缺失”(MNAR),导致接受和拒绝人群之间存在显着差异。 有两种广泛的方法来推断缺失的表现:分配和增强,每种方法都有不同的技术。 两种方法中最流行的技术是比例分配,简单和模糊增强和parcelling。

表1.拒绝推断技术

比例分配是将拒绝对象随机划分为“好”和“差”的账户,其“坏”比率比公认的人群高两至五倍。

简单增强假定使用base_logit_model对拒绝进行评分,并根据截止值将其分为“好”和“坏”帐户。截止值被选择为使得拒绝者的不合格率比接受者中大2至5倍。

模糊增强假定使用base_logit_model对拒绝进行评分。每条记录都有效地复制,其中包含加权“坏”和加权“好”组件,二者均来自拒绝评分。这些权重,以及所有接受权重等于“1”的权重,将在final_logit_model中使用。建议的策略是拒收率比接受者高两到五倍。

Parcelling是一种包含简单增强和比例分配的混合方法。通过将使用base_logit_model生成的拒绝分数分箱成分数带中来创建parcel。比例分配适用于每个parcel,其“坏”比率是被接受人口的等值分数带中的“坏”率的两倍至五倍。

图4.比例分配

图5.简单增强

图6.模糊增强

图7. Parcelling

系列之前:信用评分:第5部分 - 评分卡开发

系列之后:信用评分:第7部分 - 信用风险模型的进一步考虑

作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt6

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分割
  • 拒绝推断
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档