从海伦凯勒学习法谈谈自然语言处理

本文讨论的不是语音识别,机器翻译等的自然语言处理应用,而是想探讨一下更为深层的,机器如何理解自然语言的问题。

相信每个人都知道海伦凯勒的故事。她在19个月大的时候不幸因为高烧失去了视力和听力,但是依靠老师朋友,更重要的是自身的努力学会了说话和语言,并以优异的成绩从哈佛毕业成为了一名文学家。

海伦的学习法分成四个步骤:

1、每天用三个小时自学。

2、用两个小时默记所学的知识。

3、再用一个小时的时间将自己用三个小时所学的知识默写下来。

4、剩下的时间她运用学过的知识练习写作。

从海伦说话的视频来看,她说的语言其实常人很难懂,需要通过她的闺蜜逐句翻译。但这并不妨碍她自由表达自己的意思。自然语言在本质上属于人类社会因交流需要而产生的符号系统,它的规则和推理特征鲜明。然而另一方面,人类语言的规则往往隐藏于语言当中,有很多含糊不清的地方,规则的制定并不容易。这就是为什么我们常人理解一件事情,需要联系上下文调查背景信息才能搞懂的原因。从海伦的学习法来看,她的主要时间是用在对既有知识的理解上。不仅有步骤2“重复的过程”,步骤3“抽象概括的过程”,也有步骤4“扩展应用的过程”。

图1: word2vec

近年来,词向量(word2vec)等语言知识的分布式表示开始流行,这种分布式表示能够很自然的接入到人工神经网络,进行数据归纳学习。人工智能的自然语言处理利用了大规模语料库和统计机器学习方法,在模型生成过程中自动评估特征的权重,省去了很多人工编制规则的负担。这一方法在人脸识别等图像处理应用上表现优秀,然而自然语言更为复杂,有上下文和时间轴的影响。

比如说,小张问小李“你吃午饭了吗?”,小李回答“我早饭吃多了。” 理解这其中的“言下之意”需要具备以下知识:“早饭是在午饭前吃的”,“早饭需要时间消化”,“如果早饭吃多了,午饭会吃不下”。如果要分辨小李是否说了真话,那还要了解“现在的时间到底是几点”,“小李和小张的关系如何”等信息。这其中交谈对象,环境和时间都可以变化,这些因素和交谈内容互相影响,导致了不同的理解。现有的人工智能的自然语言处理流程是固定的,这就给计算机理解自然语言带来了很大的困难。

图2: 由外向里,由里向外的知识传播途径

然而,人与人之间在语言交流中的相互理解都有麻烦,更何况是计算机呢?回到海伦的学习法,我们其实看到了一个知识由外向里,又由里向外的传播过程,通过这个学习过程,知识才在海伦的大脑中固化下来。人工智能也可以这样考虑处理自然语言。

首先,知识由外向里输入的过程。如果对机器中保存的知识更新只停留在人工输入阶段,那么机器就永远无法实现像人一样的自动学习与进化。所以这里需要采用人工神经网络等联结主义的方法,让计算机不断自动去学习新的知识,更新已有的知识。

其次,知识由里向外输出的过程。计算机的学习结果是否正确,对人类是否有危害,我们可以通过环境激励等行为主义的方法来影响计算机的认知,来“调教”人工智能。这样,经过数代的更新和迭代,就有可能产生出计算机自己的知识体系和语言模式。

当然,这种方法也可能有个问题。因为计算机的语言模式是建立在人工神经网络自我学习的基础上的,它的学习过程对于人类来说无法理解。我们既要让人工智能实现进化,摆脱“人工智障”的阴影,也不能完全放弃人类对它的控制。

篇末彩蛋:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181213G05HCL00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励