就是它,香农公式。
其中p(x)是自变量x在某个系统中出现的概率。
比如,一篇文章3000字,一个字出现了5次,那么这个字出现的频率就是5÷3000.
那还有别的字呀,你、我、他、的、得、地……把这些字出现的频率全都统计出来,然后加和,就能算出这个系统的信息熵。
01
信息熵的计算
如果系统只有一个符号,比如,一张纸上写了一个“我”。
那么它出现的概率是100%,后面的对数是0.
整体结果就是0.
信息熵就是0.
也就意味着这个系统啥信息也不能传递。
有2个符号就不一样了。
假设这两个符号出现的频率都是50%,结算结果就是:
系统的信息熵是1,我们可以说成每个符号可以传递1bit的信息。
到这里,你已经看出来了,影响一个系统信息熵的因素有2个:
符号的多少,还有符号出现的频率。
02
中文
中文的信息量是很大的,也就是说每个中文符号传递出的信息多。
2019年的时候,一个数学博主做过统计,单个汉字的信息熵是9.5,单个英文字母的信息熵为3.9.
可见中文的效率很高。
这是因为中文使用的字符多、每个字符之间的关联度不大。
先说字符多。
现在假设每个符号出现的频率相同,都是n分之一,但是这个系统的符号不固定,一共有n个。
n越大,对数的值也就越大,那么信息熵也越大,也就意味着单个符号传递的信息越多。
现在看我们的汉字。
汉字有很多个,等于我们创造的符号本身就多,我们是用这些“符号”拼到一起表达意思的。
等于说,我们的积木块很多,我们搭建的时候用到的也多。
而英语就26个字母,它们的符号本身就不多,变化也赶不上中文。
再说字符关联度不大。
我们的中文,在一篇文章中省掉一些词一些字,意思就不一样了。
因为每个字都很关键,字与字之间的关联小,关联小就说明每个字出现的频率是很均匀的。
而英语很多组合是在一起的,丢一些也不影响理解。
经常读英文文章的人会知道,一些单词拼写错误,不影响整体意思。
那么英文的字母频率就不均匀。
不均匀,带入公式就会发现,信息熵小。
均匀,信息熵大。
整体来说,中文用到的字符多,字符之间关联不大,所以信息量大。
完全符合香农公式。
你看,数学上做出了很好的解释。
还是那句话:
数学允许发生就一定会发生,只是你还没发现。
数学不允许一件事情发生,它就一定不会发生。
中文为啥效率高?数学说的。
03
周边
同样一本书,翻译成中文,往往是最薄的——承载的信息量大,不需要那么多字。
我没有英文版的《哈利波特》,但是我找了魔法石的两个电子版来对比。
英文版300多页,中文版200多页,还没有考虑排版,排版稀疏也会影响页码。
先别骄傲,如果换成语音,我们的中文就不占优势了。
因为我们的音调没有那么多,我们是表意文字,不是表音文字,一个音可以有很多个字。
gou(够,狗,购,沟,勾……)
所以,如果我们说话重音不分,就会让“字符”减少,等于用音压缩了好多个字。
所以,说的话,会损失许多信息量。
这就是为什么我们中文必须配字幕,配上字幕理解起来刚刚好。
而英语配字幕,那么一大串字,大脑还没读完呢,就翻页了,反而造成焦虑。他们听音就够了。
好了,今天的分享就到这里吧。
下次再见。
领取专属 10元无门槛券
私享最新 技术干货