首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能基础篇1——计算机处理自然语言的一些问题

首先我们需要了解信息是如何传播的。事实上,即使现在的通信方式比之原始社会先进得多,而从传播原理上讲,却是并没有差别的,即

将信息源所要传播的信息进行编码,接收者从信息通道获得编码后的信息并将其解码,从而获得信息源所要传播的信息。

信息经过了编码——传播——解码,实现了信息的传播。

我们可以认为,任何一种语言都是一种对信息的一种编码的方式,而语言的语法规则便是编解码的算法。当我们将一个所要表达的信息通过一种语言表达出来之时,便已经进行了一次编码,而编码的结果便是这种语言表达的一串文字。信息接收者如果懂得这种语言,那么他便可以将这串文字解码,从而获得这串文字所代表的信息。这便是人类语言的本质。

我们要研究智能问题,那么首先就要面对以下问题:

问题一:计算机能否处理自然语言。

计算机科学之父阿兰•图灵(Alan Turing)在他的一篇论文中提出了一种验证机器是否有智能的方法,这种方法也被称为图灵测试(Turing Test):

让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能。

当然,计算机能否处理自然语言,无论是真实情况还是出于假设,这个答案必然是能,这是研究下去的前提。

问题二:计算机如何处理自然语言。

对于这个问题,人们的第一反应便是,计算机像人类一样处理自然语言,换句话说,便是让计算机理解自然语言,再深入一层,便是计算机拥有如人类大脑一般的智能。那么这种想法是否可行?

从二十世纪五十年代到七十年代,研究智能的科学家都抱着这种想法,然而二十年的成果几近为零。如何理解自然语言,在于分析语句和获取语义。

分析语句,如“我看书。”以文法规则重写出来,便是

【句子主谓宾句号

主语名词 谓语动词 宾语名词 句号。

名词我 动词看 名词书】

我们可以看到,即使是如此简单的一句话,也需要八条文法规则,那么如果是一个更为复杂的句子,如“一向自信的他一直认为他自己做的一切都是无可辩驳的。”其中的文法规则便复杂得多了。

那么这其中便出现了一个无法解决的问题,想要通过文法规则覆盖所有自然语言的语法规则,数量至少达到十万以上,而且为了语义准确,还必须说明每个规则规定的使用环境,到最后每增加一个新句子,就要加入一些新的文法规则。

即便假设上面的问题能够解决,在获取语义上也出现了另一个无法解决的问题。那就是无论在哪一种自然语言里,要理解一个句子的意思,往往要联系上下文,这个问题直接导致了自然语言处理研究的停滞。

所以,让计算机理解自然语言至少目前是不可行的。学者们也就将该想法称为“鸟飞派”,即以为模仿鸟便能造出飞机,而不需要知道空气动力学。

那么计算机是如何处理自然语言的呢?

答案是使用基于统计的方法,即为自然语言上下相关得特性建立数学模型。一开始因为计算能力不足和数据量少的问题,基于统计的方法智能处理简单的自然语言,但近几十年来,计算机的硬件更新和数据量的不断增加,让通过统计模型完成精确复杂的句法分析变得越加可行。

关于使用基于统计的方法处理自然语言,请关注神灯前沿探索下一章——人工智能基础篇2。

(本文参考书目:《数学之美》)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181226A1LCWC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券