前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何量化样本偏差对信贷风控模型的影响?

如何量化样本偏差对信贷风控模型的影响?

作者头像
Sam Gor
发布2021-03-22 10:52:34
1.4K0
发布2021-03-22 10:52:34
举报
文章被收录于专栏:SAMshareSAMshare

风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响模型效果,影响信贷业务。而很多风控模型也都只能基于有偏样本建立。对于样本偏差对风控模型的影响,很多模型同学一般只是定性分析,为此,本文将尝试从量化的角度探讨这一点,希望能给大家一些方法论上的启发。

目录

1. 信贷业务中的样本偏差来源

2. 信贷业务中的风控模型术语 3. 拒绝推断方法概述 4. 仿真实验设计评价 5. 总结

信贷业务中的样本偏差来源

01

信贷业务大致分为营销获客、贷前授信、贷中动支等几个环节。如图1所示,每一个环节都有一定的风控措施,用以筛选客群。在互金行业信贷业务中,目前授信通过率大致在10%~30%,其中10%+又是较为普遍的数字。因此,大约90%的客户便失去了授信资格,也就没有借款机会。

图 1 - 信贷业务中获客-授信-动支-放款流程

在风控模型迭代时,我们只能基于还款表现来定义样本的好坏,并组成建模样本。一些无法获知其还款表现的样本,造成了样本偏差。失去还款表现的样本主要来源自以下几类:

  1. 授信拒绝客户
  2. 授信通过但从未动支的睡眠户
  3. 动支拒绝客户
  4. 放款失败客户

我们补充介绍图1中的二次风控业务概念。其诞生背景是,在联合贷业务中,银监会要求资金方(银行、消费金融等机构)必须承担自主风控能力,不可将核心风控交付上游资产方等第三方机构完成。上游资产方一般要求资金方的通过率不低于某个值(如80%)。

如图2所示,对于第一家资金方拒绝的借款申请订单,仍会路由给下一家,直至放款通过。因此,对于在金融平台端便拥有借款申请订单的所有贷后表现数据。

图 2 - 一次与二次风控业务场景

信贷业务中的风控模型术语

02

为提高自动化审批效率,我们在业务实践中大量借助模型来对客户排序、筛选、分群,并对不同人群制定不同的策略。大数据风控的套路都大同小异,贵在精细化运营。

模型并不神秘,其本质是从历史样本中拟合输入和输出之间的关系,并将该规律应用于新输入的预测。模型的优势在于变量含义清晰(目标变量决定了模型分数的含义),区分能力强(融合了大量弱变量的信息),能让决策更为科学。

为便于理解,我们约定特征向量

,目标变量

。同时,定义一些模型术语概念:

  • AR(Accept Reject)模型:以是否通过定义Y (1 = accept,0 = reject),以全量申请样本构建,用以预测

  • KGB(Known Good Bad)模型:以是否违约定义Y (1 = bad,0 = good),以已知好坏的通过样本构建,用以预测

  • AGB(All Good Bad)模型:以是否违约定义Y (1 = bad,0 = good),以已知好坏的通过样本和(假设真实已知好坏)拒绝样本联合构建,用以预测

  • IAGB(Inferred All Good Bad)模型:以是否违约定义Y(1 = bad,0 = good),以已知好坏的通过样本和推断好坏的拒绝样本联合构建,用以预测

注意,"通过"的概念包括贷前授信申请通过、贷中借款申请通过、放款申请通过等任意一种,并不局限于授信通过。

图 3 - AR、AGB、IAGB、KGB模型的关系

该如何理解AR模型和KGB模型呢?

(1)AR模型刻画了金融机构对客户资质的认可度。认可度这个词比较抽象,你也可以理解为是否是目标客群。虽然当前授信策略可基于风险、收入(偿债能力)、利润等多种角度,但主流依据仍然是风险维度。因此,AR模型将线上复杂的一套风控系统进行了抽象,对风险也具有较好的排序性。在实践中,AR模型的KS基本都能达到50%以上。

(2)KGB模型则是对AR模型在风险识别上的补充。打个比方,如果AR分在0~100分,分数越高,代表通过的概率越高。如果按历史通过的标准制定阈值,通过的标准为80分。但是,由于这个AR模型并非十全十美,在通过的客群上,我们发现仍存在一些风险较高的客户。因此,我们基于通过样本构建KGB模型,对客群再次筛选,从而不断降低通过客群的风险水平。

(3)AR模型和KGB模型在各自建模样本上是无偏的。AR模型在全量样本上是无偏的,KGB模型在通过样本上是无偏的。但是,KGB相对于全量样本是有偏的。

拒绝推断方法概述

03

如图3所示,下限是KGB模型,上限是AGB模型,经过拒绝推断改良后的模型称为IAGB模型。于是,问题的核心在于如何引入正向信息,让IAGB模型逼近上限。我们很难评估信息是正向,还是负向的。因此,IAGB模型的性能可能会反而比不上KGB模型,这就是推断好坏标签所带来的风险。

若能准确推断每个拒绝样本的真实标签,那么IAGB模型就等于AGB模型。很可惜,现实中不可能做到这点,我们只能在KGB模型的基础上通过某些方法将其修正为IAGB模型。

为更直观理解这一点,我们假设只采用一个多头借贷变量来建立模型。理由是,多头变量是相对客观,且具有明确业务含义的变量。一般情况下,多头变量取值越大,违约风险越高。这能帮助我们清晰看到差异性。

我们对放款样本和全量样本设置相同的分箱边界,统计各分箱内的WOE值,并通过线性模型拟合。如图4所示,全量样本上的WOE曲线(橙色)更为陡峭,而放款样本上的WOE曲线(蓝色)则相对平缓。这两根曲线之间的差异性,就是KGB模型与AGB模型之间差异的体现。

而如何将Accept WOE曲线修正为All WOE曲线,就是我们所要探索的核心问题。

图 4 - 通过和全量样本上的WOE趋势对比

回顾在《风控建模中的样本偏差与拒绝推断》中,我们介绍了很多拒绝推断(reject inference)方法的操作步骤。在本文中,笔者选择了3个有代表性的方法,希望从更高的视角分析背后的思想。

方案一: Re-weighting(重新加权法)

重新加权法只是调整了通过的好坏样本的权重,并没有把拒绝样本加入建模样本。基本思想包括:

  1. 为更精细赋值推断的调整因子,可将样本经过一定风险排序后,划分多个区间后,对每个区间分别赋予一个调整因子。
  2. 拒绝样本的风险高于通过样本,这意味着调整因子都大于1。在当前风控系统有效的前提下,该假设成立。

其操作步骤为:

  1. 在通过样本上构建KGB模型,并对全量样本打分

  1. 将全量样本按

降序排列,等频分箱,统计每个箱中通过和拒绝样本数。

  1. 计算每个分箱中通过的好坏样本的权重
  1. 引入样本权重,利用通过好坏样本重新构建KGB模型。

符号含义可参考下表。

利用该方法,我们对WOE值进行调整,得到图5。对比图4和图5,可以发现相对于Accept WOE曲线,Cal WOE曲线与All WOE曲线更为接近。说明拒绝推断后的模型效果确实带来一定的改善。

图 5 - 通过和全量样本上的WOE趋势对比

方案二: 模糊展开法

由于KGB模型在通过样本上是无偏的,我们只需要对拒绝样本进行一定的修正。如果说直接赋予0或1的标签,推断失误的风险较大。那么,我们就引入权重项来模糊表达。基于以上思想,其操作步骤为:

  1. 在通过样本上构建KGB模型,得到

,并对拒绝样本打分。

  1. 将每条拒绝样本复制为不同类别,不同权重的两条:一条标记为1,权重为

。另一条标记为0,权重为

  1. 利用变换后的拒绝样本和放贷已知好坏样本(类别不变,权重设为1)建立AGB模型。

图 6 - 模糊展开法(Fuzzy Augmentation)

方案三: 两阶段法(双评分卡)

根据全概率公式,我们可以将

表达为:

其中:

,这是AR模型的预测结果。

,这是KGB模型的预测结果。

因此,如果能获知

,也就是根据拒绝样本也构建一个"KGB"模型,问题便可迎刃而解。

根据式(1)可知,IAGB模型相对于KGB模型而言,唯一可以带来增量信息的便是AR模型分。AR分是唯一连接通过样本和拒绝样本之间的桥梁。我们需要思考该如何利用这部分信息。

如图7所示,AR分和KGB分在通过样本上都是无偏的,因此可在通过样本上回归拟合两者的关系,得到

。我们将得到的回归函数

应用在拒绝样本上。

但这个函数

仍然是有偏的,因为其仍然只用到了通过样本上的信息。因此,接下来我们再利用模糊展开法建立AGB模型。

图 7 - 两阶段评分卡模型

仿真实验设计评价

04

这些拒绝推断方法可能大家都已经熟悉,最大的疑惑在于——既然拒绝样本都失去表现,那如何实践验证效果呢?打开思维的束缚,样本偏差是相对的,任何样本集经过排序后总能创造出偏差条件。

借鉴二次风控的做法,我们可以在放款通过的样本上构建实验。对于满足足够长的还款表现期的放款样本,都拥有已知的贷后表现。我们一共设计了3个实验。

实验一:验证样本偏差对KGB模型的影响。

1. 将100%的放款样本作为全量总体,只考虑历史训练的风险分(online score)当作线上风控系统唯一的决策变量,对样本进行排序,并设置通过率为30%(或其他比例),人为制造样本偏差。事实上风控系统是一个特别复杂的系统,包括客群细分策略、资信数据查询策略等。这里抽象为一个模块以简化流程。

2. 利用2020年5~6月通过的30%样本(训练集)建立KGB模型,并在2020年7~8月(测试集)上进行评估,作为模型上线应用的模拟。

3. 在2020年7~8月(测试集)上,根据online_score排序后,设置不同的通过率(30% ~ 100%),并用KGB模型在通过样本上测算KS,观察KS的效果变化。

事实上,前文中所说的通过样本和全量样本也都是如此设计而来。

图 8 - 验证验证样本偏差对KGB模型的影响

如图8所示,以上操作步骤真实反映了我们日常迭代KGB模型的过程,即每次都只能在通过样本上构建模型,并在通过样本上验证模型效果。实验结果如图9所示。为了量化样本偏差的影响,我们采用KS和PSI两项指标。

  1. KS指标:衡量模型对好坏的区分度。由于测试集上全量样本都有已知的好坏标签,对于通过客群计算KS。KS越大,代表模型区分度越好。
  2. PSI指标:衡量模型应用样本相对于建模样本的分数偏差。PSI越大,说明样本群体分数分布差异性越大。

图 9 - 设置不同通过率下KGB模型KS和PSI的变化

我们发现,在对标30%的通过样本上,模型的KS达到最高(19%~20%),而随着样本偏差增大,KS开始下降,直至16%。这个现象说明:

如果只是利用KGB模型的排序性,拒绝推断并不是必需环节,因为作用到全量样本上,虽然KS会下降,即便我们不知道衰减程度有多大,但可能仍然具有一定区分度。

将上述结论进一步推广:在头部优质客群上所建立的模型,在全量客群上效果自然会衰减。这解释了用单一机构的Y所建立的KGB模型,在其他机构上可能完全失效的现象。如果你测试过三方数据商提供的评分产品,你就会有更深的体会。

实验二:探索AR与KGB模型混合使用方法。

模型设计时一定要预先考虑使用场景。在模型应用环节,我们提出了3种方案:

(1)AR模型和KGB模型交叉使用,组成联合分布,筛选出目标客群。这是因为AR模型学到了历史风控系统的经验,拒绝样本一般比通过样本风险更高,因此AR模型对好坏仍然具有一定的排序性。事实上,这是目前风控策略同学使用最多的方法。

(2)AR模型预筛出最好的部分客群,KGB模型在这部分客群上作用。我们假设AR模型可以预先帮助KGB模型减少样本偏差。该方案的合理性在于,如果授信通过率为10%,那么根据AR分数便可拦截70%的人群,对于剩余的30%人群,我们再利用KGB模型进行排序。

(3)利用拒绝推断技术,将AR模型和KGB模型融合为一个IAGB模型分。接下来再利用IAGB模型分进行决策。

图 10 - 利用AR分数帮助降低样本偏差

实验三:探索利用拒绝推断技术构建IAGB模型。

在实践中,我们尝试使用各类方法,但是由于样本、特征等差异性,实验结果可能并不可靠,这里并不展示实验结果。但是,笔者更为推荐大家利用两阶段双评分卡来进行拒绝推断探索。

在真实业务中,除了二次风控外,在贷前授信环节我们确实没有Y数据。此时可以通过阈值外的间谍样本(spy)进行评估效果。

图 11 - 申请订单的3种状态

总结

05

针对真实信贷业务中存在的样本偏差问题,本文对以下几个问题提出了一些参考解决方案。

  1. 如何根据真实业务场景,创造样本偏差条件?
  2. 如何验证样本偏差对KGB模型的影响?
  3. 如何验证拒绝推断方法的有效性?
  4. AR模型和KGB模型如何协同决策?

任何科学决策都离不开数据支持,拒绝推断的难点存在于多个方面:

  1. 在某些场景下,拒绝样本的真实标签缺失,造成效果好坏评估上的不可能。
  2. 很多方法都有潜在的假设,需要试凑法来多次实验,很难总结出固定的方法论。

但是,我们总是希望获取更多的正向信息,措施包括:利用AR分、拒绝标注等。需要指出的是,本文也只是提出了一些方法论上的指导,所给出的数据结论可能并不具有普世价值。欢迎大家探索尝试!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档