前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >信息熵和基尼系数_信息熵和基尼系数

信息熵和基尼系数_信息熵和基尼系数

作者头像
全栈程序员站长
发布2022-11-07 15:17:19
6200
发布2022-11-07 15:17:19
举报
文章被收录于专栏:全栈程序员必看

一、基尼系数是什么?

1)定义

下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。

信息熵和基尼系数_信息熵和基尼系数
信息熵和基尼系数_信息熵和基尼系数

2)基尼系数有什么意义? 我们可以先来看一组数据

X的取值

方案一

方案二

方案三

方案四

P的平方

方案一

方案二

方案三

方案四

类别一

0.9

0.5

0.4

0.2

p1^2

0.81

0.25

0.16

0.04

类别二

0.1

0.5

0.3

0.2

p2^2

0.01

0.25

0.09

0.04

类别三

0

0

0.3

0.2

p3^2

0

0

0.09

0.04

类别四

0

0

0

0.2

p4^2

0

0

0

0.04

类别五

0

0

0

0.2

p5^2

0

0

0

0.04

基尼系数

0.18

0.5

0.66

0.8

总和

0.82

0.5

0.34

0.2

总和

1

1

1

1

基尼系数

0.18

0.5

0.66

0.8

信息熵和基尼系数_信息熵和基尼系数
信息熵和基尼系数_信息熵和基尼系数

由上图我们可以观察到,类别的个数是 方案一(2个) < 方案三(3个) < 方案四(4个) ,基尼系数为 方案一 < 方案三 < 方案四;而方案一和方案二类别个数相同,但方案一的类别集中度比方案二要高,而基尼系数为 方案一 < 方案二

基尼系数的特质是:

1) 类别个数越少,基尼系数越低;

2)类别个数相同时,类别集中度越高,基尼系数越低。

当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。

【类别集中度是指类别的概率差距,0.9+0.1的概率组合,比起0.5+0.5的概率组合集中度更高】

二、熵 1)熵是什么? 下面是摘自李航《统计学习方法》中熵的定义。

信息熵和基尼系数_信息熵和基尼系数
信息熵和基尼系数_信息熵和基尼系数

2)怎样理解熵的意义? 我们可以先来看一组数据

X的取值

方案一

方案二

方案三

方案四

P的平方

方案一

方案二

方案三

方案四

类别一

0.9

0.5

0.4

0.2

p1*(-lnp1)

0.09

0.35

0.37

0.32

类别二

0.1

0.5

0.3

0.2

p2*(-lnp2)

0.23

0.35

0.36

0.32

类别三

0

0

0.3

0.2

p3*(-lnp3)

0.00

0.00

0.36

0.32

类别四

0

0

0

0.2

p4*(-lnp4)

0.00

0.00

0.00

0.32

类别五

0

0

0

0.2

p5*(-lnp5)

0.00

0.00

0.00

0.32

0.82

0.50

0.34

0.20

0.82

0.50

0.34

0.20

信息熵和基尼系数_信息熵和基尼系数
信息熵和基尼系数_信息熵和基尼系数

可以看到,这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质,它们都可以用来衡量信息的不确定性。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/183334.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年10月10日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档