首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

评分卡3

大佬:上回我们提到了数据准备以及简单的处理,今天来来说说变量选择的问题。

小侃:好呀

大佬:变量选择其实主要是筛选出强的预测能力的变量,变量一般分为定量的变量和定性的变量

定性变量(名义变量)一般分为分类变量和顺序变量,分类变量常见的比如性别等,顺序变量比如学历等。

定量指标比如年龄、收入。

不同的变量有不同的处理方法的。还涉及到不同变量的相关性的处理,逻辑回归模型是不允许变量之间线性相关的,因为如果这些变量线性相关的话,那么就意味着这些指标之间有很多重复的信息,模型得到的结果只是根据有限的数量的独立的信息片段得到的预测,最后得到的模型会损失掉很多其他的变量带来的信息。

小侃:感觉好复杂啊。

大佬:确实挺复杂,说实话,没有实际操作经验,很难完全掌握,当然对于我们来说只需要了解就行了。

小侃:好的

大佬:再简要说说具体怎么做变量筛选的吧。对于定性变量的话,我们主要考虑的是IV(information value)值,IV值常用来衡量两个名义变量(定性的指标)之间的关联性。

小侃:那IV值到底是啥呀?

大佬:IV值是判断变量含有信息多少的指标,下面举个栗子

我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

在计算IV值之间,需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。WOE的全称是“Weight of Evidence”,即证据权重。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思,当然也可以不用进行分组,筛选出IV值高的变量后,我们在制作评分卡时候,再进行分组,毕竟同样类型的变量我们要尽量保持维度一致的,比如地区和学历,进行分组后,组别个数最好不要相差太多)。分组后,对于第i组,WOE的计算公式如下:

其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。

从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。同样,对于分组i,也会有一个对应的IV值,计算公式如下:

IV值越小,表明变量的区分能力越弱。

小侃:感觉理解起来还是有点困难。。

大佬:那我们想想,假如一个变量完全没有区分能力的话(完全极端例子),不同的取值完全区分不出客户的好坏,假设分为了A,B组,如果区分能力很强的话,那么A,B组的好坏客户的比例应该不一样,没有区分能力的话,A,B组好坏客户的比例是一样的,也和总体的好坏客户比例一样,也就是A组有10%的坏客户,B组也有10%的坏客户,这2组完全没有区别,反应在我们的计算公式里,可以看出,IV值计算公式最后一项是等于的(IV=ln{(10%A/10%*T)/(90%A/90%*T)}=ln(1)=0),也就是IV值等于。

小侃:稍微有点理解了

大佬:当然,我刚刚列举的是一个极端的例子,实际上,很难出现完全没有区分能力的变量的。根据上述的思路我们计算出不同的变量后,就可以对IV值的大小进行排序,然后从大到小选出我们合适的入模变量了。一般IV值小于0.02,就表示变量没有预测能力,大于0.02小于0.10表示预测能力较弱,0.1到0.3表示预测能力中等,大于0.3预测能力就很强了。当然如果超过了0.5的话,这个变量我们需要重新考虑了,常见的做法就是以这个指标作为分类规则(比如,男女分开,开发评分卡),开发多个评分卡了

小侃:那是不是所有的IV值符合的变量都可以入模呀?

大佬:那不一定哈,这些变量之间我们要进行相关性检验的,一般的做法就是,计算变量之间的“基尼方差”或者“皮尔森卡方检验”等了。这个我们就不再详细的展开了哈。

小侃:好的,那再说说定量变量的筛选呗

大佬:定量指标的筛选一般选择的方法有随机森林、回归分析等等,当然也可以将定量的连续变量分段,计算IV值的形式进行。多种方法可以结合起来。同样了,在筛选出重要的变量过后,也需要对变量之间的相关性进行分析的。

小侃:大佬,能详细介绍一下到底咋做的嘛?

大佬:这个,我其实也不会的,啊哈哈哈(尴尬。。。),这个太专业了。。。。来来,我们来说下,下面的步骤。

小侃:好~

大佬:变量筛选完了,后续就是模型的开发了,模型的开发,就是利用各种统计软件里面的函数来计算了。还记得最开始说的分值刻度的事情吧。score=A-Blog(odds),A和B呢,可以根据我们的喜好,确定了基准刻度还有变化刻度后,计算得来,重要的是log(odds)的计算。根据逻辑回归,我们可以把得分写成下面的形式:

式中:变量x1…xn是出现在最终模型中的自变量,即为入模指标。由于此时所有变量都用WOE转换进行了转换,可以将这些自变量中的每一个都写(βiωij)δij的形式

式中ωij为第i行第j个变量的WOE,为已知变量;βi为逻辑回归方程中的系数,为已知变量;δij为二元变量(取值为或者1,当值落在该变量某个分组里时,取值为1),表示变量i是否取第j个值。上式可重新表示为:

此式即为最终评分卡公式。x1…xn变量取不同行并计算其WOE值,式中表示的标准评分卡格式,具体表格展示形式参考如下:

上表表明,变量x1有k1行,变量x2有k2行,以此类推;基础分值等于(A−Bβ)。假如进来一个客户,我们就来找,客户各个变量位于哪个组里,每个组里都有个得分,到时候直接相加即可得到客户的最终评分。这就是我们常见的评分卡形式了。

小侃:大体了解了。感觉好复杂啊。。

大佬:是挺复杂的,对于我们这些外行人来说的话,其实掌握大概原理就行了,评分卡最终的目的其实就是分辨好坏用户,技术上做的事情,就是从海量的数据中,找到能够预测分辨用户行为的变量,当然模型需要不断的迭代的,数据反应的只是数据的本身,我们更应该关心的是数据的内在逻辑性和合理性,如果一个入模变量的表现完全和我们的常识违背的话,即使模型效果再好,我们应该不采用的,一定要深刻挖掘数据背后的含义的。

小侃:666!!

大佬:评分卡建立起来后,后来做的就是模型的验证工作了,首先我们要那测试集的数据跑一跑模型,看看得分的分布情况,一般的,得分分布应该是呈现正态分布的形式的,如果偏差太大,模型是存在问题的;另外呢,我们要看模型跑出来测试集的AUC值和KS值。

小侃:KS值和AUC?

大佬:对的,这两个指标是衡量模型效果的重要指标,要知道,评分卡最终是为了预测好坏客户的,识别的话,存在4种情况,好客户识别为好客户,坏客户识别为坏客户,好客户识别为坏客户,坏客户识别为好客户

KS值为K—S曲线中的最大值,K—S曲线是将总体进行等份并按照违约概率的降序排列,计算每一等份中违约与正常百分比(即该等份正常数量占总体正常数量的比例)的累积分布,绘制出两者之间的差异,得到K—S曲线,两条曲线最大值即为KS值。一般而言,KS值处于[0.2,0.4]之间,模型才有作用,且在该范围内,值越大越好;AUC值为ROC曲线下面积,ROC曲线指的是受试者工作特征曲线,其横坐标为K—S曲线违约累积分布,纵坐标为K—S曲线正常累积分布,一般而言,AUC值处于[0.65,0.8]之间,模型才有作用,且在该范围内,值越大越好。

小侃:这些指标其实都是说识别正确的正确率越高,模型效果越好。

大佬:对的,评分卡本来就是为了做这个工作。当然模型评估还有一些其他的指标,比如PSI指标,这个呢,可以用来判断客户的分布特性有没有发生重大变化,如果发生重大变化了,那么模型的适用性可能存在问题了。举个简单的例子,如果原来主要是18~22岁的客户,后续因为针对群体不同了,客群也不一样了,如果数量的资产,最后的评分和历史同样数量(随机)资产的评分分布差别很大的话,模型就不一定适合了,得重新建模或者迭代了。PSI指标就是为了衡量这个的,

PSI指标如果小于0.1,就表示,模型很稳定,客群没有发生大的变化,psi指标如果在0.1-0.25之间,表明模型的稳定性一般,客群出现了一定的变化,需要查找原因了,大于0.25模型稳定性差,就需要重新建模了。

小侃:原来这样。。

大佬:嗯呢,评分卡其实就是这么些东西,当然建模会有各种不同的算法的,不仅仅是逻辑回归的。不过要明确哦,不过什么样的模型,做的最后的结果一定不能偏离常识,没有逻辑,一定要有可解释性的,我们得去挖掘数据背后的含义的,如果挖掘不出,建议是放弃这个数据。知道嘛,国外因为《公平信用报告法》制约,非常强调评分卡的可解释性,当然国内暂时没有这个要求的。

上述评分卡开发信息,请参考文章:

小侃:大佬,现在REITs很火,下次给我讲讲关于这方面的知识呗。

大佬:OK

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180511G1X5MK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券