首页
学习
活动
专区
工具
TVP
发布

python评分卡建模-WOE转换和IV值

WOE全称为 Weight Of Evidence,即证据权重,就是自变量取某个值时对目标变量的影响

good_i和bad_i是该变量在各属性上对应的好客户数和坏客户数,good和bad是样本总体好客户数和坏客户数;WOE值越高,代表着该组对应的变量属性是坏客户的风险越低;

IV信息值,IV仅仅针对二元分类的目标值和名义变量,当应用于顺序变量时,顺序将会被忽略,该变量会当做名义变量来使用;

(k为变量的类别数)

从公式可以看出,IV值是基于WOE计算的,相当于WOE的加权求和。其值的大小决定了自变量对目标变量的影响程度。

通常情况下,IV0.3时,预测能力强。

WOE和IV值和其他筛选变量方法相比有以下两点优势:

它可以对所有分类变量,顺序变量以及连续变量(需分箱)统一进行预测能力的计量。

可以对缺失值进行处理,将其看作一类即可分析信息缺失对于风险是否有影响

示例Python实现:

将逾期天数>90的客户定义为坏客户1,其余为0;取学历和逾期天数,观测学历的信息值

计算学历各分类对应的总数和坏客户数

合并数据集,计算好客户数,和学历各分类对应的坏客户比例和好客户比例

计算WOE和IV

IV值等于0.155,对是否是坏客户有一定的预测能力。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180706G1E1J300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券