前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >风控ML[16] | 风控建模中怎么做拒绝推断

风控ML[16] | 风控建模中怎么做拒绝推断

作者头像
Sam Gor
发布2022-11-14 15:12:47
1.5K0
发布2022-11-14 15:12:47
举报
文章被收录于专栏:SAMshareSAMshare

00 Index

01 什么是拒绝推断? 02 为什么要做拒绝推断? 03 什么时候做拒绝推断? 04 做拒绝推断都有哪些方法? 05 验证拒绝推断效果的方式 06 总结一下

🎲 01 什么是拒绝推断

拒绝推断要解决的问题就是去推断那些被拒绝的客户,如果放贷的话,后续的贷后表现是什么样子,是好样本,还是坏样本?并把推断的结果,加入到建模样本中用于丰富样本的多样性,缩小与总体分布之间的差异

🎲 02 为什么要做拒绝推断

在我们的生活中,有很多关于幸存者偏差的例子,比如我们身边的同事月收入都是过万,就误以为大多数人都是这样子,身边的人都是本科毕业,就以为大多数人都上过大学。同样的,在金融建模领域也会有这种现象,那就是很多坏客户可能被我们拒绝准入了,所以长期以往库内的客户,都基本上算是不那么差的客户,那么如果我们直接拿这些数据来统计建模,就会出现了偏差,也就是用局部样本代替了全局样本,从而可能会得到不太能代表真实分布的模型,出现了线下回溯效果好,但上生产实际去跑之后的表现却不尽人意

图:来自于https://zhuanlan.zhihu.com/p/8862498

这就是我们为什么要做拒绝推断的主要原因,我们需要加入一些“坏客户”,从而让我们的抽样能够尽可能描述总体的情况,避免出现上述情况。

🎲 03 什么时候做拒绝推断

一般情况下都不太需要去做拒绝推断的,但如果很多次模型部署上线后的效果都不太好并且找不到原因的话,那可以考虑走这一步了。当然,如果条件不允许拿线上来随便迭代测试,也可以在建模前,做好库内样本的分布统计,并且拿着与预授信环节(或者是营销环节)的客群分布来对比下模型主要的特征分布,看看两者是否有比较明显的差异,如果是的话,有很大概率也是因为有了较大的偏差了,这个需要也需要我们去做拒绝推断。 但是有些场景,其实也没有太大的做拒绝推断的必要。比如说,审批通过率很高的场景,这样子其实贷后样本基本上与真实的客群分布相差无几;相反地,另一个极端,比如审批通过率很低的场景,由于拒绝推断与真实贷后表现之间会存在比较大的差异,加入拒绝样本不太好去控制模型的收敛,或者说模型性能会很难有较好的提升。

🎲 04 做拒绝推断都有哪些方法

这里的方法介绍,我在知乎上看到汪哥的相关文章,写得真的是太棒了!我比较难超越了,就把他的原文链接🔗贴过来,大家可以去看看哦。 《风控建模中的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。

其中,数据法中提到的3种方式都是比较好理解的。

  • 方法一:简单说就是把模型应该拒绝的客户,按照一定规则(比如不那么坏的客户)给予审批通过的决策,后续观察其贷后表现,给未来的模型提供更丰富的数据;
  • 方法二:指的是从其他机构或者类似产品中获得客户的贷后表现数据,从而来捞回一些拒绝的客户,给予这些客户好坏的标签,用于后续的建模;
  • 方法三:从人工审核的流程中找到具体的拒绝原因,根据描述,人工给予拒绝客户好坏标签。

而对于推断法就会相对比较复杂一点,这里就不一一展开来说了,就讲一个比较经典的展开法(Augmentation)

展开法的实施步骤主要是: 1、拿到贷后的样本,按照一定的好坏样本定义规则打上Y值,接着就是常规操作,得到 评分卡模型A; 2、拿着评分卡模型A,去对全量样本(包含拒绝的)进行打分,得到每个样本的模型分P(good); 3、将拒绝样本的模型分P进行降序,设置cutoff。cutoff一般按照业务经验来设置,就是拒绝样本中被赋予通过的样本,其badrate水平,是正常放款样本中的badrate水平的2~4倍; 4、根据步骤3设置的cutoff,高于这个阈值的赋予good标签,低于阈值则赋予bad标签; 5、最后利用全量样本(包括拒绝的)进行建模,得到新的评分卡模型B。 以上的5个步骤,就是实施拒绝推断中推断法之一的展开法。

🎲 05 验证拒绝推断效果的方式

最直接的方法就是使用AB Test,将部分订单使用原模型,部分订单使用加入拒绝样本建立的模型,cutoff设置一样的badrate,然后线上实际运行进行效果评估。如果加入拒绝推断后的模型可以带来更好的效果(比如放款率高且坏账率低),则代表模型有效! 但是,如果我们并没有这么多时间或者成本来做测试,也可以通过统计单变量的IV值来辅助判断,因为经验得知,做了拒绝推断后加入拒绝样本,可以让变量IV值带来提升。

🎲 06 总结一下

本文算是一个对拒绝推断的入门介绍了,让初涉风控模型的同学有一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适。不过,我也把相关其他博主这块算法模型写得比较清晰易懂的文章,分享给大家,感兴趣的同学可以抽空到电脑上细细研究拜读嘻嘻,我觉得这十分值得我们花时间去理解去吸收!

📚 Reference

[1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 风控建模中的样本偏差与拒绝推断 https://zhuanlan.zhihu.com/p/88624987 [3] 【模型迭代】拒绝推断(RI) https://blog.csdn.net/sunyaowu315/article/details/94830732

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🎲 01 什么是拒绝推断
  • 🎲 02 为什么要做拒绝推断
  • 🎲 03 什么时候做拒绝推断
  • 🎲 04 做拒绝推断都有哪些方法
  • 🎲 05 验证拒绝推断效果的方式
  • 🎲 06 总结一下
  • 📚 Reference
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档