专栏首页python3python计算IV值及使用

python计算IV值及使用

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

def CalcIV(Xvar, Yvar): 
   N_0  = np.sum(Yvar==0)
   N_1 = np.sum(Yvar==1)
   N_0_group = np.zeros(np.unique(Xvar).shape)
   N_1_group = np.zeros(np.unique(Xvar).shape)
   for i in range(len(np.unique(Xvar))):
       N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
       N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
   iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
   return  iv   

def caliv_batch(df, Kvar, Yvar):
   df_Xvar = df.drop([Kvar, Yvar], axis=1)
   ivlist = []
   for col in df_Xvar.columns:
       iv = CalcIV(df[col], df[Yvar])
       ivlist.append(iv)
   names = list(df_Xvar.columns)
   iv_df = pd.DataFrame({'Var': names, 'Iv': ivlist}, columns=['Var', 'Iv'])

   return iv_df

其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。代码运行结果如下:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【Python之旅】第六篇(三):Pyt

        学习Python的多线程(Multi-threading),至少应该要有进程与线程的基本概念,可以看我转载的一篇文章:《进程与线程的一个简单解释》。

    py3study
  • c++ python交互之boost.p

    我们做的项目测试代码用的是python,但是由于开发用的代码是c++,所以很多交互的地方是需要python调用c++的代码。为此我们将c++的函数打包成.so文...

    py3study
  • python3 map object 转

    np.array(map(float, line.strip().split(' ')), dtype=np.float32)

    py3study
  • P图,还是阿逗比厉害(大师加持)

    想要变成高手,想要随心所欲的修图,以后可能不需要苦练基本功了,你只需要一个马良那样的神笔。

    量子位
  • 实验4 个人大学数据可视化

    步行者08
  • 汇编学习总结一(10.27)

    用户4645519
  • hduoj---Tempter of the Bone

    Tempter of the Bone Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 6553...

    Gxjun
  • Spring5参考指南:基于注解的容器配置

    Spring的容器配置可以有两种方式,一种基于XML文件, 一种基于注解。注解注入在XML注入之前执行。因此,当两个同时使用时,XML配置会覆盖注解注入的属性。

    程序那些事
  • sklearn 快速入门 - 0.18 中文翻译

    对机器学习问题的简要介绍,以及如何使用scikit-learn来解决这些问题。介绍基本概念和惯例。 原文链接 : http://scikit-learn....

    片刻
  • python练习 numpy操作

    NO23412号菜狗

扫码关注云+社区

领取腾讯云代金券