文章/答案/技术大牛

发布

评分卡3

文章来源：企鹅号 - 侃侃ABS

大佬：上回我们提到了数据准备以及简单的处理，今天来来说说变量选择的问题。

小侃：好呀

大佬：变量选择其实主要是筛选出强的预测能力的变量，变量一般分为定量的变量和定性的变量，

定性变量（名义变量）一般分为分类变量和顺序变量，分类变量常见的比如性别等，顺序变量比如学历等。

定量指标比如年龄、收入。

不同的变量有不同的处理方法的。还涉及到不同变量的相关性的处理，逻辑回归模型是不允许变量之间线性相关的，因为如果这些变量线性相关的话，那么就意味着这些指标之间有很多重复的信息，模型得到的结果只是根据有限的数量的独立的信息片段得到的预测，最后得到的模型会损失掉很多其他的变量带来的信息。

小侃：感觉好复杂啊。

大佬：确实挺复杂，说实话，没有实际操作经验，很难完全掌握，当然对于我们来说只需要了解就行了。

小侃：好的

大佬：再简要说说具体怎么做变量筛选的吧。对于定性变量的话，我们主要考虑的是IV（information value）值，IV值常用来衡量两个名义变量（定性的指标）之间的关联性。

小侃：那IV值到底是啥呀？

大佬：IV值是判断变量含有信息多少的指标，下面举个栗子

我们假设在一个分类问题中，目标变量的类别有两类：Y1，Y2。对于一个待预测的个体A，要判断A属于Y1还是Y2，我们是需要一定的信息的，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的自变量C1，C2，C3，……，Cn中，那么，对于其中的一个变量Ci来说，其蕴含的信息越多，那么它对于判断A属于Y1还是Y2的贡献就越大，Ci的信息价值就越大，Ci的IV就越大，它就越应该进入到入模变量列表中。

在计算IV值之间，需要认识和理解另一个概念——WOE，因为IV的计算是以WOE为基础的。WOE的全称是“Weight of Evidence”，即证据权重。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思，当然也可以不用进行分组，筛选出IV值高的变量后，我们在制作评分卡时候，再进行分组，毕竟同样类型的变量我们要尽量保持维度一致的，比如地区和学历，进行分组后，组别个数最好不要相差太多）。分组后，对于第i组，WOE的计算公式如下：

其中，pyi是这个组中响应客户（风险模型中，对应的是违约客户）占所有样本中所有响应客户的比例，pni是这个组中未响应客户占样本中所有未响应客户的比例，#yi是这个组中响应客户的数量，#ni是这个组中未响应客户的数量，#yT是样本中所有响应客户的数量，#nT是样本中所有未响应客户的数量。

从这个公式中我们可以体会到，WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。同样，对于分组i，也会有一个对应的IV值，计算公式如下：

IV值越小，表明变量的区分能力越弱。

小侃：感觉理解起来还是有点困难。。

大佬：那我们想想，假如一个变量完全没有区分能力的话（完全极端例子），不同的取值完全区分不出客户的好坏，假设分为了Ａ，Ｂ组，如果区分能力很强的话，那么Ａ，Ｂ组的好坏客户的比例应该不一样，没有区分能力的话，Ａ，Ｂ组好坏客户的比例是一样的,也和总体的好坏客户比例一样，也就是Ａ组有１０％的坏客户，Ｂ组也有１０％的坏客户，这2组完全没有区别，反应在我们的计算公式里，可以看出，IV值计算公式最后一项是等于的（IV=ln{(10%A/10%*T)/(90%A/90%*T)}=ln(1)=0），也就是IV值等于。

小侃：稍微有点理解了

大佬：当然，我刚刚列举的是一个极端的例子，实际上，很难出现完全没有区分能力的变量的。根据上述的思路我们计算出不同的变量后，就可以对IV值的大小进行排序，然后从大到小选出我们合适的入模变量了。一般IV值小于0.02，就表示变量没有预测能力，大于0.02小于0.10表示预测能力较弱，0.1到0.3表示预测能力中等，大于0.3预测能力就很强了。当然如果超过了0.5的话，这个变量我们需要重新考虑了，常见的做法就是以这个指标作为分类规则（比如，男女分开，开发评分卡），开发多个评分卡了

小侃：那是不是所有的IV值符合的变量都可以入模呀？

大佬：那不一定哈，这些变量之间我们要进行相关性检验的，一般的做法就是，计算变量之间的“基尼方差”或者“皮尔森卡方检验”等了。这个我们就不再详细的展开了哈。

小侃：好的，那再说说定量变量的筛选呗

大佬：定量指标的筛选一般选择的方法有随机森林、回归分析等等，当然也可以将定量的连续变量分段，计算IV值的形式进行。多种方法可以结合起来。同样了，在筛选出重要的变量过后，也需要对变量之间的相关性进行分析的。

小侃：大佬，能详细介绍一下到底咋做的嘛？

大佬：这个，我其实也不会的，啊哈哈哈（尴尬。。。），这个太专业了。。。。来来，我们来说下，下面的步骤。

小侃：好~

大佬：变量筛选完了，后续就是模型的开发了，模型的开发，就是利用各种统计软件里面的函数来计算了。还记得最开始说的分值刻度的事情吧。score=A-Blog(odds)，A和B呢，可以根据我们的喜好，确定了基准刻度还有变化刻度后，计算得来，重要的是log（odds）的计算。根据逻辑回归，我们可以把得分写成下面的形式：

式中：变量x1…xn是出现在最终模型中的自变量，即为入模指标。由于此时所有变量都用WOE转换进行了转换，可以将这些自变量中的每一个都写(βiωij)δij的形式

式中ωij为第i行第j个变量的WOE，为已知变量；βi为逻辑回归方程中的系数，为已知变量；δij为二元变量（取值为或者1，当值落在该变量某个分组里时，取值为1），表示变量i是否取第j个值。上式可重新表示为：

此式即为最终评分卡公式。x1…xn变量取不同行并计算其WOE值，式中表示的标准评分卡格式，具体表格展示形式参考如下：

上表表明，变量x1有k1行，变量x2有k2行，以此类推；基础分值等于(A−Bβ)。假如进来一个客户，我们就来找，客户各个变量位于哪个组里，每个组里都有个得分，到时候直接相加即可得到客户的最终评分。这就是我们常见的评分卡形式了。

小侃：大体了解了。感觉好复杂啊。。

大佬：是挺复杂的，对于我们这些外行人来说的话，其实掌握大概原理就行了，评分卡最终的目的其实就是分辨好坏用户，技术上做的事情，就是从海量的数据中，找到能够预测分辨用户行为的变量，当然模型需要不断的迭代的，数据反应的只是数据的本身，我们更应该关心的是数据的内在逻辑性和合理性，如果一个入模变量的表现完全和我们的常识违背的话，即使模型效果再好，我们应该不采用的，一定要深刻挖掘数据背后的含义的。

小侃：666！！

大佬：评分卡建立起来后，后来做的就是模型的验证工作了，首先我们要那测试集的数据跑一跑模型，看看得分的分布情况，一般的，得分分布应该是呈现正态分布的形式的，如果偏差太大，模型是存在问题的；另外呢，我们要看模型跑出来测试集的AUC值和KS值。

小侃：KS值和AUC？

大佬：对的，这两个指标是衡量模型效果的重要指标，要知道，评分卡最终是为了预测好坏客户的，识别的话，存在4种情况，好客户识别为好客户，坏客户识别为坏客户，好客户识别为坏客户，坏客户识别为好客户。

KS值为K—S曲线中的最大值，K—S曲线是将总体进行等份并按照违约概率的降序排列，计算每一等份中违约与正常百分比（即该等份正常数量占总体正常数量的比例）的累积分布，绘制出两者之间的差异，得到K—S曲线，两条曲线最大值即为KS值。一般而言，KS值处于[0.2,0.4]之间，模型才有作用，且在该范围内，值越大越好；AUC值为ROC曲线下面积，ROC曲线指的是受试者工作特征曲线，其横坐标为K—S曲线违约累积分布，纵坐标为K—S曲线正常累积分布，一般而言，AUC值处于[0.65,0.8]之间，模型才有作用，且在该范围内，值越大越好。

小侃：这些指标其实都是说识别正确的正确率越高，模型效果越好。

大佬：对的，评分卡本来就是为了做这个工作。当然模型评估还有一些其他的指标，比如PSI指标，这个呢，可以用来判断客户的分布特性有没有发生重大变化，如果发生重大变化了，那么模型的适用性可能存在问题了。举个简单的例子，如果原来主要是18~22岁的客户，后续因为针对群体不同了，客群也不一样了，如果数量的资产，最后的评分和历史同样数量（随机）资产的评分分布差别很大的话，模型就不一定适合了，得重新建模或者迭代了。PSI指标就是为了衡量这个的，

PSI指标如果小于0.1，就表示，模型很稳定，客群没有发生大的变化，psi指标如果在0.1-0.25之间，表明模型的稳定性一般，客群出现了一定的变化，需要查找原因了，大于0.25模型稳定性差，就需要重新建模了。

小侃：原来这样。。

大佬：嗯呢，评分卡其实就是这么些东西，当然建模会有各种不同的算法的，不仅仅是逻辑回归的。不过要明确哦，不过什么样的模型，做的最后的结果一定不能偏离常识，没有逻辑，一定要有可解释性的，我们得去挖掘数据背后的含义的，如果挖掘不出，建议是放弃这个数据。知道嘛，国外因为《公平信用报告法》制约，非常强调评分卡的可解释性，当然国内暂时没有这个要求的。

上述评分卡开发信息，请参考文章：

小侃：大佬，现在REITs很火，下次给我讲讲关于这方面的知识呗。

大佬：OK

发表于: 2018-05-112018-05-11 20:08:47
原文链接：http://kuaibao.qq.com/s/20180511G1X5MK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

评分卡3

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐