前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >IV值和WOE值记录

IV值和WOE值记录

作者头像
DuncanZhou
发布2018-09-04 16:15:50
2.5K0
发布2018-09-04 16:15:50
举报
文章被收录于专栏:Duncan's BlogDuncan's Blog

IV和WOE记录

IV (Information Value)

1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等

2)IV的计算依赖于WOE

WOE(Weight of Evidence)

1)要对一个变量进行WOE编码,需要把这个变量进行分组处理(离散化 / 分箱),分组后对于第i组,WOE的计算公式如下:

WOE_i=ln(\frac{py_i}{pn_i})=ln(\frac{\frac{\#y_i}{\#y_T}}{\frac{\#n_i}{\#n_T}})

其中,$py_i$是这个组中响应客户占所有样本中响应客户的比例,$pn_i$是这个组中未响应客户样本中未响应客户的比例。

所以,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和”当前分组中没有响应的客户占所有没响应的客户的比例“的差异

IV的计算

IV_i=(py_i-pn_i)*WOE_iIV = \sum_{i}^{n}IV_i

其中,n为变量分组的个数。

为什么使用IV而不是直接用WOE

  • 1.IV和WOE的差别在于IV在WOE基础上乘以($py_i-pn_i$)- $pyn$ ,乘以了这个$pyn$变量保证了每个分组的结果都是非负数
  • 2.乘以$pyn$后,体现出了变量当前分组中个体的数量占整体个体数量的比例,对变量预测能力的影响。

IV的极端情况处理

  • 1.合理分组
  • 2.0 —> 1
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • IV和WOE记录
    • IV (Information Value)
      • WOE(Weight of Evidence)
        • IV的计算
          • 为什么使用IV而不是直接用WOE
            • IV的极端情况处理
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档