今天被一名'小硕'打赏了,我这个985毕业多年的'大本'表示很开心,一开心呢,就决定多发点干货!
很多人找我要完全代码,也许我一开心,手一抖,就公布了。。。
岁月不饶人呀,转眼奔三了,其实当年我也可以成为'小硕',现在可以自称为'老硕',结果现在浪成了屌丝。。。
各位读者如果还是未毕业的'大本'的话,建议转职'小硕'哟!
==========================分割线==========================
先说今天的主题:PSI——前传!
什么是PSI,它是做什么的?有什么意义?
知乎上这么说的:
不管是训练评分卡模型也好,还是别的什么二分类模型也好,相信大家都很熟悉ROC,KS。对!这两个小伙伴就是衡量你这个模型做的好不好的关键指标,也是老板考虑用不用你的模型的关键因素之一。
那么把模型做出来以后,我们怎么确保模型的效果是不是我们开发时预期的那样呢?
那我们就要对模型进行监控了,而监控的关键指标之一就是PSI。
好,那PSI怎么计算呢?
知乎上的前辈们已经把公式解释的很清楚了。
本文完。(会被打死吧。。)
我把关键代码写出来,如果以前不知道的人可以自己试着写一写,如果实在写不出来的人。。。有机会我会分享的。
这是一个栗子。
我们再用威武的Pandas。
把连续变量离散化,等宽分组。
可以看见分组的各区间,以及临界点。
各区间的样本数。
接下来,怎么计算呢? 大家自己想想哦。
本季完。
第二季:补缺方法。
补缺方法有很多种,连续变量有随机抽样、拉格朗日插值、中位数、均值;分类变量有众数、有Python特有的把 NaN 转为 NAN 等。
今天我们介绍sklearn里的中位数补缺和均值补缺。
这是一个常见的数据集,年龄和收入有缺失。
先选择需要补缺的变量。
然后:
就可以了。
请看神奇效果:
再介绍均值补缺。
再看神奇效果:
小伙伴是不是收获满满呢!
再看第三季:筛选变量。
筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等。今天我介绍2个方法:随机逻辑回归筛选和递归法筛选。
这是我第一篇文章Lending_Club 评分卡中补完缺失值的数据集,我节选了一部分。
15000+样本,14个特征。
再看数据集信息:
全是数值变量,无字符变量,无缺失值。
确定好X和y。
先上随机逻辑回归法筛选变量:
再看递归法筛选变量:
ok,今天大放送到此为止!期待你点赞、转发、打赏哟!
如果打赏,请扫下方二维码:
领取专属 10元无门槛券
私享最新 技术干货