首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

P2P网贷信用评分项目分享(一)

Python数据科学社区

这是 Python数据科学的第53篇原创文章

【作者】:xiaoyu

【介绍】:一个半路转行的数据挖掘工程师

【知乎专栏】:https://zhuanlan.zhihu.com/pypcfx

全文2548字 | 阅读需要10分钟

1

项目介绍

此项目为kaggle竞赛平台的give me some credits。其目的是预测银行用户违约概率,以辅助银行判断是否要对用户进行放贷。关于风险控制建模的大致流程可参考以下链接:

此项目提供样本数量多,但变量特征比较少,相比实际业务的开展肯定是远远不够的。但是作为入门风控建模,了解建模开发流程却是个不错的选择。项目拟使用所提供的数据集建立一个申请评分卡(A卡),并可以对用户自动评分。

其实在实际建模过程中是要结合业务端的,对于好坏用户如何定义?逾期多少DPD算是坏用户?表现期和观察期又是如何定义的?每个公司的业务不一样,面向客户群体也不一样,这些指标在各个公司都不一定是相同的。比如,好坏用户就需要根据滚动率来观察,几期过后逾期率会达到稳定,又如通过账龄分析来定义表现期窗口的时间长度等。

本项目仅供学习使用,对于业务指标不进行过多考虑,而侧重于建模的技术方面。

2

数据探索

和之前的套路一样,建模前的数据探索十分重要,发现数据分布特征,数据联系和内在规律等。首先导入数据后观察数据缺失值,异常值,分布规律等。

通过观察,含有缺失值的特征有:MonthlyIncome,NumberOfDependents两个。为了方便后面的使用,将特征名称修改成短名称。

这样,非常长的特征名称就便于我们后续操作了。

好坏比

很明显,数据不均衡,坏用户只占了6.68%,后续建模部分进行处理。

age特征分布

虽然后续会使用分箱以及woe方法(增加鲁棒性,增强了对异常值干扰),还是常规性的检查一下异常值。

年龄异常值上限为:96.61, 下限为:7.98。

年龄异常值上限为:96.0, 下限为:8.0,上届异常值占比:0.03 %,下届异常值占比:0.00067 %。

结论

明显观察到有个0岁的客户,这实际上不可能,至少要大于18岁成年以后才可以贷款,故将之移除。

而年龄大于96岁是有可能的,判断是噪声,并不是异常值,因为大于等于96岁的客户有98人,其中最大的年龄为109。

再看一下age特征对目标变量的影响,将age划分为几个年龄段,然后绘制出各个年龄段的违约率。

结论:可以看到年龄越大,好坏比越大,说明随着年龄增大,违约的比例逐渐减少。这为我们后面woe分箱提供了参考,呈现了单调性。

Revol特征

结论:这个特征值是百分比。含义是:除了房贷车贷之外的信用卡账面金额(即贷款金额)/信用卡总额度。实际上,这个特征值大部分情况是小于1的,因为超出额度属于透支。但是我们发现有很多特征值已经达到了几万,这在实际中是不可能的。推测很有可能是没有除以分母信用卡额度,而是分子的纯信用卡账面贷款金额。

我们需要确定的是透支的最大值是什么?即透支多少算是正常值?数值多大可以确认它是没除以分母的异常值?

观察一下Revol特征各个分段下的分布情况。

观察到现象:

小于1的分布中,大部分客户都处于0.1的位置,而随着Revol特征值变大,数量成递减趋势。

对于其它大于1的数值分布,也都明显的呈现了递减趋势。

小于1的特征值占总数量的97%,大于1的数量为5531。

下面来深入研究一下大于1的特征值对坏账率有什么影响,以及找到透支的阈值。

通过上面观察:Revol特征值在10到100之间中,坏账客户的值多在10到20之间,并且其相应的DebtRatio也很高。而其他Revol特征值高(>20)的但DebtRadio低的并不是坏账客户。因此,推测可能的异常值阈值(即透支的上限)在20-30左右。

下面我们通过具体数据来确定具体的阈值在哪。

根据观察的现象,我们可以看到:

0-1之间的坏账率为5.99%。按理说,随着比例升高,坏账率也应该升高,尤其是在透支的情况下。在1-30区间内,已经属于透支状态,坏账率39%,达到了最高。但是透支是不可能无限升高的,会有个阈值。 从30到100区间,坏账率开始下降,坏账率开始下降恢复正常,说明30左右的值(即3000%左右)可能就是正常透支的阈值。

因此,将数值超过30的都定义为异常值,并将大于30的值与0-1之间合并。

NumDependents特征

发现:NumDependents的缺失值为6550个,而NumDependents和MonthlyIncome同时缺失的数量也是6550个。

结论:

说明NumDependents缺失的样本MonthlyIncome也缺失。

我们想要通过找相似的方法来填补缺失的Dependents,因为有以上结论,所以我们观察一下MonthlyIncome缺失,但NumDependents不缺失的样本是如何的。

MonthlyIncome特征

Dependents缺失的样本坏账率为:4.56%,Dependents不缺失的样本坏账率为:6.74%。

由于缺失值占比达到近20%,直接删除会损失数据信息,中位数/平均数进行大量填补效果并不好,这里选择随机森林建模预测缺失值。

Num30-59 | 60-89 | 90 late特征

DebtRatio

同Revol使用的方法一样,由于存在大量的异常值,固也对其进行了分段来分析坏账率的特点。这部分分箱的观察分布对于后续的woe计算转化很有帮助,当然这些特征指标的分箱也要结合实际业务理解来划分。

结论:将debtratio>2的都视为异常值,并将这些异常值与0-1之间的debtratio分为一组。

NumEstate特征

看到大于50的值为明显异常值。

NumOpen特征

3

总结

由于特征数量比较少,所以对每个特征都进行了简单的探索。当然这些这些都只是单变量分析,旨在初步了解特征分布特点和一些通用的规律。由于内容较多固设置为一篇介绍。

下一篇将介绍如何进行介绍:

1. 如何从做woe转化2. 利用iv值进行筛选变量3. 变量是如何衍生的4. 如何使用auc评估模型5. 建模参数调节和样本不均衡处理6. 最后又是如何生成相应的评分卡

完整代码在知识星球中,如果刚兴趣请扫下面二维码:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180925G0QDF100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券