前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >编码通信与魔术初步(二)——信息论基础

编码通信与魔术初步(二)——信息论基础

作者头像
magic2728
发布2023-01-30 15:57:59
2270
发布2023-01-30 15:57:59
举报
文章被收录于专栏:MatheMagicianMatheMagician

早点关注我,精彩不错过!

上一讲我们讲到了基本的通信模型以及经过简化抽取其核心变量的噪声信道模型,相关内容请戳:

编码通信与魔术初步(一)——通信浅谈

这一讲我们专门深入到编码这一过程,来详细说说,信息是如何最有效地编码的,以及怎样度量信息量等等问题。

什么是信息

第一个问题,什么是信息。

就一般理解,信息是经过通信过程以后信宿得到的内容。比如得到的说话者说了什么,用了什么语气,蜜蜂得到了该去哪里采蜜等等。而在不同的领域,信息也有不同的定义。比如,文本信息,就是单指文本序列的内容;热力学里的信息,指任何会影响热力学状态的事件。但是,各种定义总的来说都有一个共同的属性,那就是,减少不确定性。

所以,我们在信息论中讲的信息,就不会去讨论信息的具体内容到底是采蜜还是哪里有金矿了,而是抽象为:信息是对收到消息后不确定度的减少,信息的量就是对这种减少量的一种度量。

因此,不能带来不确定度的减少的消息不是信息,或者说信息量为0。因此,我们在谈论信息的时候,一定要先讲明是对哪件事来说的,你关注的是哪个变量,你还得了解变量的取值范围和估计他的前后分布。否则,一切都无从谈起。比如,我关心的是世界杯哪只球队夺冠,每收到一条淘汰赛的消息就会少一只球队的可能性,那这件事的不确定度就在不断减少,因此,这就是带有我关心信息的消息。你告诉我说,NBA里谁战胜了谁,对不起,我认为这两件事独立,对我知道世界杯谁夺冠来说,就不是有用的信息。

信息的量如何度量?

另一个问题是,这里所说的不确定度,究竟是什么,怎么度量呢?伟大的香农老师在他的硕士论文里奠定了信息论的基础,这个不确定度的度量方式,叫作熵,它是概率分布函数的一个泛函。

H(X) = sum(- pi * log(pi))

其物理意义也很明显,是- log(pi)这个值的期望,也就是平均来看,- log(p)的大小。

那- log(p)为什么可以表达不确定度的大小呢?定性来看,我们要找一个p的减函数,p越大,越可能发生,其不确定度越小。比如极端来看pi = 1,那么在这个情况下,不确定度应该为0才是。现在是一个要把[0, 1]内的pi映射到一个正数上去,log函数是一个不错的选择。当然这只是定性分析,定量来看,这个log(p)还有一个非常重要的物理意义:

在最佳编码策略下,编码一个已知概率分布的X事件,所需要的最少bit数。

如果是bit数,那log要以2为底,其他底也可以有类似XX数的其他单位,他们只有倍数关系。由于计算机本质上是二进制的物理单元组成的,所以这个诞生在信息领域的概念就沿用了这个习惯,以2为底的对数取相反数时候得到的值来作为次情况下不确定度的度量,并命其单位为比特,bit,恰好对应计算机上二进制编码所需要的位数。

当然这么做还有一个联系,就是信息量以bit为单位可以直接加起来了,这恰好就对应的概率或者似然直接在log内相乘,和独立事件的概率乘法公式又对应了。

这是个非常了不起的转化,一下就把这个和分布啊,密度函数关联的数学内容和以二进制为基础的计算机关联在了一起。于是,熵的定义的物理意义便是:用二进制位编码一个符合X分布的信息,平均来看需要的理论最少bit数。其实,并非所有分布都能够恰好达到,比如二进制编码下,要求所有的p都能够形如1 / 2 ^ n,n是正整数才能得以恰好编码完成。因为这时,每一个bit才能在每一次选则编码那些随机变量取值空间的时候都恰好做到二等分而没有浪费一点信息。否则需要非整数的bit数,无法真的实现,只能用Huffman编码等方式进行近似。(相关证明我们在Huffman编码相关章节再详细说。)

所以,我们现在可以定义信息量为:

I = H_before - H_after

注意公式是前面减后面表示减少,H是熵用来衡量某个状态的不确定度,物理意义是用二进制编码这个信息需要的最少理想bit数。

注意,H是状态变量,是描述给定状态的,而I是过程量,是一个差值。

信息论信息和日常信息有什么区别?

这里大家也可以看到信息论中的信息,和我们日常生活中说的信息,有什么区别。信息论中的信息,仅仅是两个客观地用来描述同一个对象不确定度减少程度的客观过程量,强调其量的正负,大小。至于这条信息有什么意义,是不是你关心的,接下来会产生什么影响,这些信息论统统都不考虑,但这些才是我们日常生活中所说的“有用信息”,“重要信息”,“关键信息”等等的含义,而信息论中的信息量,仅仅是个参考罢了。

这一点是一开始学习和理解信息论非常重要的一个全新认知,如果你老是拿生活中理解的信息去套信息论中的信息,总是会感觉有些别扭和奇怪。

其实关于信息论中的信息和日常生活中的信息到底有什么区别,这个问题也曾经困扰我很久,不知道是不是同样困扰过你,以及上面的回答是不是能够有所帮助了。

这里还有个很关键的问题,以上所有公式的计算,都离不开对这个变量本身分布的估计。我们都是以上帝视角假设这些分布在前后都已知的情况下来推导计算的。实际上,我们对分布的认识可能和真实情况差得很远,接受一条信息因为不同的理解,所理解到的信息量也大不相同。比如,一个完全不懂球的人,如果假设所有球队谁夺冠是个均匀分布,算是最不坏的结果,淘汰一个队后仍然如此,也没问题。可是当他看了很多分析文章,想到底谁夺冠概率更大这个问题的时候,往往就可能有偏了。比如,有很多评论员分析中国队要夺冠,因此在它的脑海里,中国队的夺冠概率要估计得比别人高很多,因此就有了迷之自信去买了彩票而亏得一塌糊涂。这就是人们对概率分布,进而对信息量估计,因为没有人知道真实分布(信息完全的话,就是个因果确定的事了),所以估计也都是有偏的,但是人们对信息多少的感受却是由之而来的。比如告诉你一个你不怎么关注了解的国家夺冠了,你可能天生就觉得是冷门,而中国队夺冠明明是冷门,很有信息量,你却觉得理所应当。更有甚者,可能你对变量的取值范围估计都会有误,比如,你从未想过科比会这么早离开我们,这对你来说就是爆炸性新闻,因为那时候的震惊,似乎已经超出了我们一般的理解范围。

最后提一下,为什么科比离开就成了新闻,一个一般人就不会呢?按理来说信息量是一样的啊?这主要源于,人对事情的感兴趣程度,一方面取决于纯信息量,另一方面,则是本身的关注度,可以建立一个简单地将二者相乘来得到兴趣度的模型,比如,把抽奖中奖率设置为 1 / e使得- plogp取最大值时候总的抽奖满意度是最高的,因为人们只会关心中奖,不关心不中奖- (1 - p)log(1 - p)这个部分,自然就不计算在内。但是熵的计算都要考虑,它无所谓关心与否,对所有结果等同看待,这也信息定义和人类感知存在的区别。

今天给大家介绍了信息论中关于信息部分的核心理解,其中以熵为核心还有一大堆信息论应用的重要思想和概念,我们下期见!

后面要分享的魔术,抢先看!

视频2 傅氏幻术——心灵感应

我们是谁:

MatheMagician,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义,也取像魔术一样玩数学的意思。文章内容涵盖互联网,计算机,统计,算法,NLP等前沿的数学及应用领域;也包括魔术思想,流程鉴赏等魔术内容;以及结合二者的数学魔术分享,还有一些思辨性的谈天说地的随笔。希望你能和我一起,既能感性思考又保持理性思维,享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MatheMagician 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档