前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >编码通信与魔术初步(一)——通信浅谈

编码通信与魔术初步(一)——通信浅谈

作者头像
magic2728
发布2023-01-30 15:57:22
3280
发布2023-01-30 15:57:22
举报
文章被收录于专栏:MatheMagicianMatheMagician

早点关注我,精彩不错过!

从今天开始,我将给大家介绍在数学魔术中非常值得浓墨重彩,大书特书一笔的一个系列——通信与编码。它是支撑21世纪信息世纪几乎最重要的数学基础理论,而且在魔术这个小领域里也有着十分重要的从理论到实践的应用。本系列是通信编码专题的第一个系列,前面会从通信和编码的纯理论部分开始讲起,然后以几个经典魔术来说明其中的奥妙。

接下来就跟着我一起进入编码通信这个迷人的领域吧!

通信模型

通信在我们的自然界和人类社会里都无处不在,比如蜜蜂跳8字舞采蜜,蚂蚁通过触角来传递食物在哪的信息,而狗通过撒尿来标示领地。一方面是通信给别的狗不要来;另一方面也是一种记录信息,相当于通信给自己。人类就更不用说了,我们的五觉都可以用来接收信息,不过主要是视觉和听觉,信息的形式也以方便编码的书写文字和语音文字为主。而其他气味,触摸,味道也是可以传播和通信的,只不过,用得少罢了。

这些众多的通信的例子背后,一定会有统一的数学模型来抓住其共性,描述其基本规律,这就是通信模型。通信模型是描述自然界,人类社会通信普遍规律的数学模型。所有通信方式,都绕不开这些基本要素和过程,如图所示:

图1 通信模型

其过程如图所示,其中有3个对象,3个过程:

三个对象:

信源(sender):信号发出者

信道(channel):信息传输的载体

信宿(receiver):信息的接受者

三个过程:

编码(encoding):把原信息编码成可传输的格式

噪声(noise):在信宿中传输,必然会引入噪声干扰

解码(decoding):尽量还原得到最开始信源编码前的原始信息

看起来,人类比较明显的通信过程就只有打电话,听收音机,看电视这些符合这个描述。因为这里才找得到比较显式的那三个对象,比如发射器(信源),接收器(信宿),还有传输过程用的天线或者无线电波(信道)等等。但深入分析会发现,每一个通信都符合这样的模型,只是部分要素被隐藏了。比如人语言交流,说话是把脑海里的某个意思作为信源编码成了一定语气的自然语言文字序列,这里可能已经引入噪音而出错,进一步由喉咙编码成声音信号,通过空气媒介这个信道传递到对方耳朵这个信宿里。当然这个过程必然会混入其他的声音和衰减等噪音,最后到达耳朵信宿通过共振把声音信号解码出来,得到语气,文本序列等信号,进而判断此人说此话,究竟意图为何。这才完整地完成了一次人类交流的通信过程。如果是用书信的方式,只不过多了标点信息来表达语气而没有了语调表达,传播媒介变成了纸或者文字软件,因此编码的方式也变成了汉字的文本形式,而同样也可能打错字或者把字写的歪七扭八而辨认不清使得最后解码的时候出问题。蚂蚁,蜜蜂也都同理,都能够抽象出通信模型里的这三个对象和三个过程,只不过对应的实际对应需要分析挖掘。

有人就说,这么简单的自然语言过程,何必分析得这么复杂去套用通信模型呢?那是因为自然生活的一般场景不要求海量,精确等科学研究场景才需要的条件,但是这个模型在处理大规模数据和研究问题时候,就因为对本质的精准描述而有很大的优越性了,甚至在一些表面上并非这个场景的问题可以去套用,却意外地发现切中本质,完美解决。

接着我们进一步来看这个通信模型里,除去硬件支持以外,最核心的表达。

噪声信道模型

这里先补充一点,编码,一定得是原信息和编码完成结果之间的一一映射,否则,从根上,这个信息就没法再解码回去。当然有的校验码不需要,它吃概率,如hash算法下的md5,crc32等等作用是在一个小空间内比较是否相等来大概率判断两个文件传输前后是否一致,对判断文件是否变化了,具有高召回率和100%的准确率,是性能和效果上的一个极佳的折衷。但这些并不是编码,他们也不需要最后解码回原文件。

不过,在用数学模型来研究通信的时候,会进一步简化。即,我们对过程中所用到的物理工具,也就是那些对象,并不关心,我们只关心量,以及量的变化过程,于是就有了噪声信道模型。它是忽略物理工具,强调量和其变化的通信模型简化版本,使得其数学意义更加突出,其描述如图所示:

图2 噪声信道模型

这个图就是噪声信道模型的基本表示了。可以看到,它忽略了基本的通信模型的实物对象,只留下和强调了在信道中接受噪音,从输入的已编码信号,变成输出的编码信号的抽象过程。可以看到,这个模型的输入是经过基本编码的信号,而输出仍然还要等待解码器去还原回去这个编码前的结果。比如,语音识别中,是书写文本信号编码成声音信号,经过传输的噪声干扰被机器听到,机器需要解码得到原始的书写文本信号究竟为何。(虽然有的文本形式一开始并没有,甚至有的声音语言天然就没法很好地对应用文本表达,但仍然得假设存在才能去这么做,或者说,差别可以忽略。)注意,这里的噪音不仅仅指传输干扰,还指因为发音人的特异性,以及其当下状态,使得发出的声音可能和理想因有一定的区别。实际上,编码语音的过程就是有噪音的,这个可以看作是编码噪音。但是我们的模型假设这部分是没有噪音的,因此我们假定有个标准的声音编码过程,和文字一一对应,那么因为人声和传播的噪音就可以都纳入这个信道里了。解码时候是解的声音,也是解的其对应的一一对应的文字了(注意当加上噪音以后,一一对应就不成立了)。因为一一对应,所以我们仍然可以剥离掉这个编码过程来看噪声信道的这部分。或者,我们认为,在信道中,允许存在带噪声的编码,不然以上模型就套用不通了。

而在文本纠错模型中,其编码过程就可以忽略,输入就是编码好的正确文字(再往前可以说是语义编码的文字,不过不用建模到那个地步),表达心中所想的意思。输出就是经过了噪音干扰的结果,所以在解码的时候,考虑的全部都是噪音,而无需再像语音识别那样建立一个声学模型来解码。这里所谓的解码其实是解出编码的信息,也不考虑还原回真实信息的过程,因为那个抽象出来的确定的一一映射没有什么好研究的。

于是,加上解码过程的噪声信道模型如下图所示:

图3 噪声信道模型与解码

I表示编码以后的信息,O表示加上噪声以后的信息,I’即为解码结果。

于是大名鼎鼎的解码公式就面世了,其原理是贝叶斯模型,是因果工序图世界观下的概率图模型结果:

图4 解码公式图模型

其中,Para是固定参数,I, O是变量,O是观测到的,I是待估计的变量,显然,根据贝叶斯模型,在有其先验分布的基础上,我们可以求其后验分布,进而用MAP或者PME的方式来得到估计解:

能这么做的理由,就是这一套贝叶斯假设,你得假设这里每一个箭头代表的因果关系存在,而且不再有别的联系。任何因假设错误导致的问题后续的计算都不负责。比如,Para有可能直接影响O,或者这个世界都是互为因果的,无向图模型才是这个世界的真相等等。说这些只是让大家看到任何一个模型都是有局限性的,但是我们依然要在这个边界内继续完成我们的推导。比如,这里的I和O,在语音识别中就涉及到两种完全不同的域内的信号的条件分布函数,而纠错模型则在同一个空间中间,用改写去建模其变化部分,就能够解决了。

还有个特殊的例子,密码学的加密解密过程也符合基本的通信模型假设。只不过,和一般的通信需要尽可能方便不同,其加密解密对应的编解码过程要尽量使得难以破解,才是其真正目的。

好了,今天算是给本系列开个头,一个关于通信的简要综述,下一篇我们进入编码,来聊聊物理通信背后,真正的数学原理。

老规矩,后面的魔术表演,先睹为快!

视频1 3 * 7的感应

我们是谁:

MatheMagician,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义,也取像魔术一样玩数学的意思。文章内容涵盖互联网,计算机,统计,算法,NLP等前沿的数学及应用领域;也包括魔术思想,流程鉴赏等魔术内容;以及结合二者的数学魔术分享,还有一些思辨性的谈天说地的随笔。希望你能和我一起,既能感性思考又保持理性思维,享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MatheMagician 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档