首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

“春花秋月何时了”里面编码着“国恨家仇”

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。

自然语言会不会机器语言效率更低呢?

恰恰相反,自然语言是一种比机器语言高效,准确得多的语言,越古老,语料越丰富的语言,就越高效,越准确。

这个结论非常反直觉,我来解释一下。

以 SMTP (简单邮件传输协议)为例,它定义了大约十几个命令,比如HELO,OLEH,FROM,RCPT,DATA 等等。如果用二进制表达,2的4次方差不多就够了。很简单,很高效对吗?

如果是用自然语言表达,可能是「你好」,「Hola」,或者「こんにちわ」或者 「م١ليب」。这些文字,通过一个类似于 GPT-3 一样的大语言模型,会被翻译成一个 1536 维的向量,也就是 1536 个浮点数字。如果一个浮点数用 4 个字节表达,那就 2 的 32 次方的 1536 次方的信息,或者等于2 的 49152 次方这么一个数字。这个数字大得让我窒息。这个数字有多大,我不知大。至少我知道,我们现在已知的整个世界的原子数是 2 的 78 次方,多一位,就是 2 的 79 次方(就是两倍于宇宙的原子数)就已经让我无法想象了,不要说从 78 次方变成 49152 次方。

而传输的自然语言本身有多少信息量呢?你好用 Unicode 编码也就是四个字符,2 的32 次方而已。

也就是是说,大语言模型可以把任何一个自然语言的词或者句子「扩展」成远远远远大于这个词本身的信息量。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

也就是说,4 个字节的信息进,6000 多个字节出。这不符合信息守恒定律呀。这是怎么做大的呢?

秘密就在于:人类的自然语言的历史上所有的语料,就是一本「密码本」。这个密码本被说的人和听的人共享。

举例子,如果我们有一本厚得不得了的书,几百亿页,包含了人类所有重要的知识。要是相隔几千公里的两个城市都有这个密码本,我们想把《三体》这一本书传递到另外一个城市,我们不用传递《三体》本身的 100 万字,而需要告诉对方一个索引,可能就是一个很小很小的数字,对方就可以从中根据密码本找到这本书。

人类历史上的所有的自然语言加和,就是这么一本密码本。我们只要说一句「春花秋月何时了」,不用加任何其他的信息,国恨家仇,幽怨的囚禁生活等等这些信息,不需要传递,就已经在每个懂这门语言的人的心里传递过去了。

两个人刚刚见面,表达一件事情需要说很多话;但是当两个人在一起合作了 20 年,可能三言两语,对方就心领神会。当两个人有共同的知识的情况下,可以通过传递更少的信息,而从共享的数据中获取多得多的信息。‍‍‍‍‍‍‍‍‍‍‍‍‍

我们回到 SMTP 的例子,我们看似几个命令非常简单,但是要是表达极为复杂的内容,根本无法用这几个命令组合完成。比如一个机器人决定礼貌的问候对方 ,而他只有 HELO 这一个指令,他将毫无办法。但是未来,一个机器人和另外一个机器人的问候语,可以是「你好」,可以是「吃了吗?」,可以是「嗨」,可以是「你丫的跑哪去了?」,这几字节的信息能够传递的丰富的内涵,只要看一下汗牛充栋的小说,文献,就可以当作从这几句里面扩充信息的丰富的素材。

「苹果」这两个字,如果让不懂自然语言的人看起来就是两个字的信息。但是大语言模型眼里面,这两个字里面包含了「甜」,包含了「圆」,有「红」,也有「种子」,有「邪恶」的感觉,也有「七个小矮人」环绕,有「图灵」的不甘心。。。。你只要想想一下 2 的将近 50000 次方里面能放多少信息,苹果这两个字里面在大模型里面就有多少信息。

所以,用自然语言作为机器人和机器人之间的交流语言,不但不会低效,反而是无法想象的高效。就如同人类的一个眼神,就传递了无数的信息。这些信息其实不仅仅是由信息本身传递的,而是在人类的基因和文化的浩瀚的结构中包含的,眼神仅仅是一个索引。

我进一步推论,历史越长,内容越浩瀚的语言,传递的效率越高。比如中文,就比毛利语更能准确的传递信息,因为中文的语料,有几千年的积累,而毛利语我们能找到的文献,相比来说小得多。或许,英语,中文这样的语言是最适合机器人交流的语言。‍‍‍‍‍

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230318A05DK500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券