专栏首页大数据建模的一点一滴闲扯 | 信贷场景中数据使用的那点事

闲扯 | 信贷场景中数据使用的那点事

本文聊聊信贷场景中数据使用的一些问题。对于持牌机构,除了查询人行征信,也会查询某些外部数据以补充人行征信覆盖不到的信息;而对于非持牌无人行征信查询资质的公司来说,外部数据是其风险控制的主要依据之一。人行征信报告结构稳定,数据质量高,并且应用了这么多年,已经有固定的使用方法,没太多好说的,下面主要聊聊如何选择和使用外部数据,想到什么就写什么,就当闲扯吧。

数据提取

正常情况下,如果已有一定的历史数据积累,外部数据在对接使用前,需要提取历史数据进行测试,提取数据时应考虑以下几点:

(1)按产品种类提数

分产品提数,然后分产品对数据进行分析。

(2)要有足够的表现期

提取的数据要有足够的表现期,以保证可以充分测试出数据的效果。如果数据表现期不足,客户好坏的程度是不稳定的,好坏的定义也是不准确的,很难测出数据的实际效果。至于选择多长时间的表现期,可以参考这篇文章:点击链接Vintage、滚动率、迁移率的应用

(3)距当前时间不能太久

最好选择距当前时间较近且又有足够表现期的数据进行测试。距当前时间太久的数据,其当时的风控政策、宏观形势甚至监管环境与现在相比可能有很大的差异,并且很多外部数据本身随时间变化也比较大,所以太久远的数据匹配的外部数据的分布和效果与当前的业务可能已经发生了较大的偏移。

(4)样本的时间不要太集中

选择的样本不要集中于某个时间点,最好有一定的时间跨度,比如不要全部选择某个月数据进行测试,可以将时间跨度放大一些。第一,为了减少个别事件对业务数据的影响;第二,可以通过不同时间的样本测度外部数据的变化趋势、稳定性等;最后,也是为了有一定的跨时间样本用于规则和模型的验证。

(5)好坏比例要合适

提取样本的好坏比例要合适,如果业务数据的坏客户比例较低,可以提高坏客户的抽样比例。

(6)提取的样本量要合适

提多少样本合适,要根据测试的数据类型而定。如果是验真型数据,只需选择少量已知真实与否的数据进行测试;如果是非验真型数据,数据量以能满足数据分析的要求为准,一般测试数据会用于模型和规则的开发,所以数据量至少应该能够满足模型或规则的开发与验证的需要。

(7)提取的要素

外部数据的测试一般会要求提供姓名、身份证、手机号三要素,有些数据还可提供邮箱、手机imei等要素,提供的要素越多匹配的信息越多。此外,还有一个要素也是必要的,那就是申请时间,在测试时应该要求将数据回溯到申请时间,以与业务的时间维度保持一致,如果某数据源无法按照时间回溯,那么在评估数据效果时要特别小心,因为会存在“以未来预测未来”的问题,通常会高估数据的效果。

如果没有历史数据仍然想用外部数据该怎么办?这种情况就是所谓的冷启动,可以参考乙方提供的建议,如果有相似业务场景下相同数据类型使用经验的风控人员更好,可以参考以前的经验用法,后续再及时根据风险表现调整策略。

数据评估

可以从以下几个方面对数据进行评估:匹配情况、缺失情况、分布与变化趋势、数据效果等。

(1)匹配情况

匹配率是指测试样本中有多少样本有数据返回,如测试样本10000条,其中9000条有数据返回,则匹配率是90%。匹配率是某类数据整体命中情况的衡量指标,如黑名单的匹配率是2%,表示测试样本中只有2%命中黑名单;再比如,测试电商数据的匹配率是60%,表示有60%样本有电商数据,而有40%样本完全没有电商的任何信息。

(2)缺失情况

缺失率在实际使用时有两种口径。以银行卡数据来说明,10000条样本中,有8000条有银行卡数据,即其匹配率为80%;但银行卡数据中含有几百个字段,其中一个字段为近1个月交易笔数,该字段在7000条样本中有值,在其余3000条样本中是缺失的,以总样本的口径,该字段的缺失率为(10000-7000)/10000=30%,以匹配上数据的口径,缺失率为(8000-7000)/8000=12.5%。如果同时给出匹配率、各字段两个口径的缺失率,就基本勾勒出该类数据的饱和度了。

(3)分布与变化趋势

分布是指数据各水平的占比情况,可以通过数据分布了解客群特征在外部数据上的体现。

变化趋势是指数据分布随时间的变化情况,大部分的数据类型短时间内很难看出变化趋势,如果真想了解某类数据的变化趋势,可以放大测试样本的时间跨度,如抽样提取半年内的样本进行测试,但此时要考虑这期间风控策略的变动对数据分布的影响。

有些类型的数据变化是非常快的,如多次申请数据(指申请次数而非借贷次数),在使用该类变化快、不稳定的数据时,应对其进行实时监控,并及时调整相应策略。此外,对于不稳定的数据最好只用于制定规则,便于更加灵活的调整;慎重用于建模,频繁地调整模型除了耗时耗力,更重要的是模型的变动可能对整套策略的影响比较大进而需要对相关策略进行调整,从而打乱了风控策略的连续性和稳定性。对于响应速度比较慢的机构,比如大部分银行,稳字当头,如果在模型开发时加入此类变量,无异于给自己挖坑。

多次申请数据能快速反映消费信贷行业的波动,因为消费信贷行业的波动能快速传导到该类数据上。记得2017年底141号监管文件出来后不久,多次申请数据就出现了断崖式的下降,因为很多平台都暂停了现金贷业务,以前经常在各平台申请借款的人,可申请的渠道减少了,所以在数据上就体现了申请次数的下降,见图1和图2(图中非真实业务数据),假设图1是监管文件出来前的变量近一个月内的申请次数的分布,图2是监管文件出来后不久该变量的分布。

这种情况下,数据分布发生较大偏移,并非因为客户质量发生变化,而是因为客群的行为变了,并且这种变化是被动的。还是那波客户,但整体的申请次数减少了,如原来申请10次的人现在可能只申请了4次。此时还在做业务的机构,如银行、消金公司、还有迅速作出调整的现金贷机构,就不能延用原来的规则了,原来申请17次以上拒绝,可能要调整为申请8次以上拒绝。

后来监管又陆续进行了各种整顿,原来的互金开始转型做助贷。与此同时,为鼓励消费,消费金融获得了监管的鼓励支持;加之经济下行的大环境下,传统对公业务对于中小银行来说开始玩不转了,所以很多城商行、农商行、新兴民营银行等中小银行对资产的渴望十分迫切。消金、银行等持牌机构与转型的助贷机构可谓一拍即合,联合贷和助贷模式在各金融机构中快速复制,业务规模迅速增长。这时的多次申请数据也逐渐回升,其实借款的大多还是那波人,只不过资金来源变成了机构。

该背景下的人行征信数据也发生了变化。互金、P2P等公司是无法查询人行征信的,这些公司的客群也大多定位于无征信人群;在助贷模式下,原来银行不敢自己对无征信客户授信,在助贷机构的风控和保险担保等增信方式的加持下,逐渐将自己的客群下沉,原来无人行征信数据的人群也就有了信贷记录,这也算对人行征信的一个贡献吧。另一方面,某些助贷机构通过持有小贷等牌照,获得了人行征信查询资格,这可能导致发生一笔授信重复查询人行征信的问题,虽然可能约定只有某一方来查征信,但双方基于自身风控或数据积累的目的,都有查询征信的需要,很难完全规避掉。站在客户的角度,其一笔贷款申请,在人行征信报告中却留下了2次以上的查询记录,这里不敢妄谈合规问题,但人行征信报告中查询次数的信息受到一定程度的污染确是一个现实问题。

(4)数据效果和数据应用

数据评估最重要的目的是评估数据的效果。可以通过提升度、IV、KS等指标分析数据的区分度。在数据应用方面,有些数据可以开发一些强规则,而有些数据只适合用于模型。在开发规则时,以提升度作为衡量指标,即命中规则的样本的坏账率与总体坏账率的比值,提升度大于一定阈值才适合作为规则。在开发模型时,要兼顾效果和稳定性,在信贷场景中,大多时候稳定性要优先于效果,甚至可以为了稳定性牺牲部分效果。

数据监控

数据监控分两阶段。第一阶段是新规则和模型上线后的监控,此时主要监控规则和模型是否稳定,如规则的命中率、评分分布、规则和模型所用数据的分布、缺失率等指标,与测试样本中各指标有多大差异。应该注意,相关策略的调整如增加了新规则、新评分等,会导致相关数据的分布发生偏移,这是正常的可以预见的变动。如果剔除策略调整的影响,数据的分布差异仍然很大,这时可能就是非正常情况了,是当前业务相对于测试样本发生了变化?还是数据本身出现了波动?抑或其他原因?那就需要具体分析了。第二阶段是有一定表现期后对规则和模型效果的监控,这时需要对其作出相应调整,甚至直接去掉无效的规则。

暂时就写这么多,手机码字挺累的,其他问题后续再写吧!

本文分享自微信公众号 - 大数据建模的一点一滴(bigdatamodeling),作者:小石头

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 模型评估 | Python实现ROC

    首先从混合矩阵说起,混合矩阵是真实类别与预测类别的交叉表,其中矩阵的行表示真实值,矩阵的列表示预测值,二分类问题的混合矩阵如下:

    小石头
  • 特征工程 | PCA降维

    主成分分析(PCA)是一种多元统计方法,主要利用降维的思想,在损失很少信息的前提下,把多个变量转化为少数几个互不相关的综合变量,各综合变量即称为主成...

    小石头
  • WOE(证据权重)为何这样计算?

    先简单回顾一下WOE的含义。假设x是类别变量或分箱处理过的连续变量,含R个类别或分段,取值为{C1, ..., Cr, ..., CR};y是目标变...

    小石头
  • 阿里车品觉:大数据时代的若干新思考

    大数据文摘
  • 数据变现的历史与未来

    大数据文摘
  • 企业中的大数据安全问题

    大数据有望大大改善业务运营,并允许组织为每个客户提供量身定制的服务。通过社交媒体和连接的传感器生成的信息量激增,包含了可以转化为有形商业利益的隐藏洞察力模式。这...

    大数据杂货铺
  • 过去1年大数据领域薪资有多高?

    互联网在经历前几年的繁荣之后,现在开始进入寒冬,资本家不再像以前那样大胆地投资,纷纷攥紧自己的口袋。但是从整个互联网行业来看,大数据却一枝独秀,逐渐崛起。

    CDA数据分析师
  • 搞AI的产品经理该怎么写PRD?谷歌的导师教你

    最近,谷歌机器学习X 和TensorFlow X团队的产品领导者Clemens Mewald在Medium上发表了一篇文章,详细介绍在开发涉及到机器学习的产品时...

    量子位
  • 大数据项目遭遇失败的八个理由

    大数据目前已经成为万众瞩目的焦点,已经有众多企业在拼命把自己的数据投付使用、希望借此为重要决策提供支持。尽管大数据宣传与炒作可谓如火如荼,但仍有92%的企业始终...

    华章科技
  • 【法语译文】法国如何在大数据时代担当重要角色

    大数据文摘

扫码关注云+社区

领取腾讯云代金券