前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从香农说起

从香农说起

作者头像
故事尾音
发布2019-12-18 17:00:36
7690
发布2019-12-18 17:00:36
举报

我在大学上量子物理的时候,觉得这门课公式繁多,一度不愿意去学习。直到后来我看到近代量子物理的发展简史,才感受到其中的美妙。那是一种人文与科学的交织,我深深陶醉其中,也对量子物理兴趣大发。我觉得深度学习也是这样,我们应该了解公式背后的历史。跟随着那些有趣灵魂的脚步,才会明白是这一切将去往何方。

ZXFwXd.png
ZXFwXd.png

香农(1916年4月30日-2001年2月26日),美国数学家、电子工程师和密码学家,被誉为信息论的创始人。1948年,香农发表了划时代的论文——通信的数学原理,在这部著作中,他提出了比特数据,证明了信息是可以被量化的,并阐述了如何在保证准确率的前提下用数字编码对信息进行压缩和传输。

信息量和信息熵

我们都知道,物质、能量、信息是构成现实世界的三大要素。其中物质和能量的度量由物理学和化学中的牛顿定律、热力学定律和质能方程解释的很好了。唯独剩下信息,如何度量信息呢?

信息量

我们常说信息的多少,这其实就是一种粗略的度量。举个例子

  • 太阳从东方升起了——没有什么信息
  • 李彦宏被泼水了,还问了”what’s your problem”——信息量很大,开始吃瓜

为什么说第二个事情信息量大呢?本质上是因为第二个时间出现的概率低。由此我们把事件出现的概率和时间的信息关联起来了:事情的概率越低,事件的信息量越大

信息熵

凡是可能出错的事必定会出错————墨菲定律

这就话的意思是说生活中的事情总会朝着最坏的方向发展。生活不但不会自行解决问题,甚至还会逐渐变得更糟糕和复杂。这背后的原因就是:熵。

信息熵其实是信息量的期望。

二分类交叉熵

我们假设要训练一个拥有多个输入变量的神经元:输入

,权重

,偏置为

神经元的输出为

,这里

,我们定义这个神经元的交叉熵代价函数为:

这里

是训练数据的个数,这个加和覆盖了所有的训练输入

是期望输出。注意这里用于计算的

也是经过

激活的,取值范围在0到1之间。

当输出y为0的时候,上面的式子变为:

,图像如下。可以看出当神经网络的输出也为0的时候loss最小,趋向于1的时候loss变大。

当输出y为1的时候,上面的式子变为:

,图像如下。可以看出当神经网络的输出也为1的时候loss最小,趋向于0的时候loss变大。

多分类交叉熵

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 信息量和信息熵
  • 二分类交叉熵
  • 多分类交叉熵
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档