前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python使用信息增益计算分类或决策算法中最重要的特征

Python使用信息增益计算分类或决策算法中最重要的特征

作者头像
Python小屋屋主
发布2019-11-14 15:44:03
1.1K0
发布2019-11-14 15:44:03
举报
文章被收录于专栏:Python小屋Python小屋

问题描述:

信息熵可以用来衡量事件不确定性的大小,熵越大表示不确定性越大。对于特定的随机变量,信息熵定义为每个事件的概率与概率的2-对数的乘积的相反数之和,即

信息增益表示使用某个特征进行分类时不确定性减少的程度,在使用该特征进行分类后,每个子类中该特征的值都是固定的。信息增益的值为分类前信息熵与分类后每个子类的信息熵加权平均的差,即

其中,Xi表示每个子类,|Xi|表示该子类中样本的数量。

如果根据某个特征的值对原始数据进行分类后,信息增益最大,那么该特征为最重要的特征。这种方法会有误差,如果某列特征的唯一值数量非常多,会得到很大的信息增益,可以使用信息增益率进行纠正,本文不考虑这个问题。

参考代码:

运行结果:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档