通俗理解决策树中的熵&条件熵&信息增益

参考通俗理解决策树算法中的信息增益

说到决策树就要知道如下概念:

  • :表示一个随机变量的复杂性或者不确定性。

假如双十一我要剁手买一件衣服,但是我一直犹豫着要不要买,我决定买这件事的不确定性()为2.6。

  • 条件熵:表示在直到某一条件后,某一随机变量的复杂性或不确定性。

我在看了这件衣服的评价后,我决定买衣服这件事的不确定性是1.2。 我在线下实体店试穿衣服后,我决定买衣服这件事的不确定性是0.9。

  • 信息增益:表示在知道某一条件后,某一随机变量的不确定性的减少量。

上面条件熵给出了两个: 一个是看了网上的评价,此时的信息增益是\(Gain_1 =2.6-1.2=1.4\)。 另一个是线下试穿了衣服,此时的信息增益 \(Gain_2=2.6-0.9=1.7\)。

很显然我在线下试穿衣服之后对于决定买这件衣服的不确定度下降更多,更通俗的说就是我试穿衣服之后买这件衣服的可能性更大了。所以如果有看买家评价线下试穿两个属性,首先应该选择线下试穿来构建内部节点。

信息熵计算公式

  • 符号\(x_i\)所具备的信息为: \[I(x_i) = -log_2p(x_i)\]
  • 所有类别所具有的信息熵(information entropy):\[H(X) = -\sum_{i=1}^{n}p(x_i)log_2p(x_i)\]

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏李智的专栏

【SPA大赛】分享推荐类大数据的相关经验

本人很幸运在刚刚结束的京东算法大赛中取得第四的成绩,腾讯广告点击大赛目前排名前五十,在比赛过程中学到了许多知识,同时也有一些经验分享给大家。后面也有队友李强在腾...

3170
来自专栏IT派

爆料 | 解析阿里妈妈如何将深度学习应用在广告、推荐及搜索业务

非常高兴与大家进行“深度学习演进之路”的交流,阿里妈妈是阿里巴巴集团下的大数据营销平台,是负责阿里巴巴变现的一个事业部。我研究的方向是机器学习、计算机视觉、推荐...

1402
来自专栏机器之心

学界 | 哈佛大学提出在云、边缘与终端设备上的分布式深度神经网络DDNN

选自arXiv 机器之心编译 参与:李亚洲 近年来,深度神经网络在多种应用上取得了极大的成功,网络架构也变得越来越深。以卷积神经网络为例,从 1998 年 Le...

4037
来自专栏机器之心

从背景介绍到未来挑战,一文综述移动和无线网络深度学习研究

选自arXiv 作者:Chaoyun Zhang等 机器之心编译 近来移动通信和 5G 网络等快速发展,它们的调控与配置因为充满了多样性和动态变化而面临非常多的...

3525
来自专栏华章科技

人工智能大拿解答机器学习30个问答

这次参加的是 Yoshua Bengio,计算机科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就是蒙特利尔大学任教,与...

671
来自专栏专知

381页机器学习数学基础PDF下载

【导读】近期,由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰写的《机器学习数学基础》“Mathemat...

1.3K4
来自专栏CVer

381页机器学习数学基础PDF下载

【导读】近期,由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰写的《机器学习数学基础》“Mathemat...

2493
来自专栏人工智能快报

Hinton取得新进展,以更少数据识别图像

谷歌人工智能先驱Geoffrey Hinton公布了AI技术进展,可提高电脑正确识别图像的速度和较少的数据依赖。 Google公司公布了关于其人工智能先驱Geo...

3196
来自专栏机器之心

学界 | 定量研究:当前机器学习领域十大研究主题

选自arXiv 作者:Patrick Glauner等 机器之心编译 参与:韩小西、李泽南 机器学习的发展日新月异,目前最热门的研究方向是什么?近日,来自卢森堡...

2633
来自专栏机器之心

业界 | 自动捕捉高光时刻:谷歌展示Google Clips全新智能摄影技术

1943

扫码关注云+社区

领取腾讯云代金券