互联网金融风控建模之评分卡模型的细节

文章来源：企鹅号 - 一本格

变量挑选：

剔除掉跟目标变量不太相关的特征

消除多重共线性的影响

增加解释性

变量挑选是降维的一种手段，反之不是

主成分分析法：降维，但没有剔除变量

方法：

LASSO：L1正则化

逐步回归法：慢慢增加或者减少

随机森林法：

bootstrap有放回地随机抽取 K个新的自助样本集，构建K棵树

在每棵树的特征中抽取一些特征，计算出分裂节点

最后K棵树投票

权重调整：

权重应该做得不一样，逾期样本的权重大于正常样本

和业务结合，逾期样本的权重较低

模型的评价：

好、坏人群的分数(或违约概率)的分布的差异 KS

>0.3 :好 0.2~0.3 :可用0～0.2 :较差

好、坏人群的分数(或违约概率)的距离Divergence

好、坏人群浓度的差异Gini

最常用的混淆矩阵

真实1 真实0

预测1 TP FP

预测0 FN TN

ROC曲线:

横轴FPR

纵轴TPR

AUC(Area Under Curve)：

ROC曲线下的面积，值越大越好。

>0.7 :有很强的区分度0.6~0.7 : 有一定的区分度 0.5～0.6 :有较弱的区分度低于0.5 :区分度弱于随机猜测

模型稳定性 PSI

衡量分数稳定性的指标，PSI越小，越稳定

概率转化分数

选定基准概率和基准分，当好人概率上升一个规定倍数的时候，分数加一个规定值

PS.最近写的都偏理论性，接下来的几篇会更新实际用的代码，敬请期待

相关快讯