变量挑选:
剔除掉跟目标变量不太相关的特征
消除多重共线性的影响
增加解释性
变量挑选是降维的一种手段,反之不是
主成分分析法:降维,但没有剔除变量
方法:
LASSO:L1正则化
逐步回归法 :慢慢增加或者减少
随机森林法:
bootstrap有放回地随机抽取 K个新的自助样本集,构建K棵树
在每棵树的特征中抽取一些特征,计算出分裂节点
最后K棵树投票
权重调整:
权重应该做得不一样,逾期样本的权重大于正常样本
和业务结合,逾期样本的权重较低
模型的评价:
好、坏人群的分数(或违约概率)的分布的差异 KS
>0.3 :好 0.2~0.3 :可用0~0.2 :较差
好、坏人群的分数(或违约概率)的距离Divergence
好、坏人群浓度的差异Gini
最常用的混淆矩阵
真实1 真实0
预测1 TP FP
预测0 FN TN
ROC曲线:
横轴FPR
纵轴TPR
AUC(Area Under Curve):
ROC曲线下的面积,值越大越好。
>0.7 :有很强的区分度0.6~0.7 : 有一定的区分度 0.5~0.6 :有较弱的区分度 低于0.5 :区分度弱于随机猜测
模型稳定性 PSI
衡量分数稳定性的指标,PSI越小,越稳定
概率转化分数
选定基准概率和基准分,当好人概率上升一个规定倍数的时候,分数加一个规定值
PS.最近写的都偏理论性,接下来的几篇会更新实际用的代码,敬请期待
领取专属 10元无门槛券
私享最新 技术干货