机器弃学指南:为什么遗忘可能是人工智能的关键

图片来源:hackernoon.com

引言:计算机也需要遗忘

面对现实吧,遗忘真是太糟糕了。不记得钥匙放在哪了,磕磕绊绊说不出话来,因为想不起来在杂货铺遇到的同事的名字,这些都非常令人泄气。然而,遗忘却是人类的本质之一,事实上,我们很幸运我们能够遗忘。

对于人类来说,遗忘不仅仅是未能记住,其实,这是一个积极主动的过程,遗忘可以帮助大脑接收新信息并更有效地做出决策。

现在,数据科学家正在应用神经科学原理来改进机器学习,并相信人类大脑可能是解锁图灵完备人工智能的关键。

根据《Neuron》杂志最新的一篇论文,我们的大脑充当信息过滤器的职能。放入一大堆乱七八糟的数据,筛选出有用的数据,然后清除任何不相关的细节,以便讲述故事或做出决定。

删除无用的部分,以便于为新的数据腾出空间——很类似于在计算机上运行磁盘清理。用神经生物学的话说,当神经元之间的突触连接减弱或随时间消失时,遗忘就发生了,而随着新神经元的发育,它们重新连通海马体,覆盖现有记忆。

对于人类而言,遗忘有两个好处:

1. 减少过时信息对我们决策的影响,以提高灵活性

2. 防止对过去事情的过拟合,提高泛化能力

为了高效地适应新环境、新状况,人类需要有策略地遗忘。

但是,计算机该怎么做这件事情呢?

这是人工智能面临的一大挑战——计算机与人类遗忘的方式不同。深度神经网络是一系列机器学习模型中最成功的技术,但它们无法按照我们的方式遗忘。

举一个简单的例子——如果你教一个讲英语的儿童西班牙语,那么儿童会把学习英语的相关信息应用到西班牙语中 ——可能是名词、动词时态、造句——同时遗忘不相关的信息——思考口音、喃喃自语、语调。儿童可以一边有策略地遗忘,一边学习建立新的语言。

相比之下,如果教会了一个神经网络模型英语,学到的参数适合于处理英语。如果这时想训练这个模型西班牙语。

为了拟合西班牙语神经网络将覆盖掉以前学到的英语信息,删除一切,从头再来。这被称为“ 灾难性遗忘 ”,“这是神经网络的主要局限之一”。(DeepMind, AlphaGo的开发团队)

虽然神经网络还是一个新的领域,但是关于如何克服这一局限,科学家们最近在探索一些潜在理论,并且取得了长足的进步。

教会人工智能有策略地遗忘:三种方法

遗忘方法一:Long short-term memory模型(LSTM)

LSTM是一种循环神经网络,它使用特定的学习机制来决定哪些信息要记住,哪些要更新,哪些要注意。

为了便于解释 LSTM 的原理,我们用电影做一个类比:设想一下,计算机要根据之前的电影场景预测接下来的情节。在一个场景中,一个女人拿着一把刀——计算机会猜测她是厨师抑或是凶手?

另一个场景,一位女士和一位男士正在金色拱门下吃寿司——他们是在日本还是在麦当劳?也许实际上这发生在圣路易斯?(圣路易斯拱门,西进之门,是该市的地标性建筑)

金拱门和“金拱门”

非常难以预测!

LSTM 通过遗忘/记忆、保存、聚焦来辅助神经网络处理这样的问题:

1. 遗忘/记忆:例如,当一个场景结束时,模型应该忘记当前的场景位置、时间,并忘却任何特定的场景信息; 然而,如果一个角色在场景中死亡,模型应该继续记住这个角色已经死了。因此,我们希望模型分别学习遗忘/记忆机制:当输入新的数据时,它需要知道哪些习得的信息需要保留,哪些习得的信息需要丢弃。

2. 保存:当模型看到新图像时,需要知晓有关图像的任何信息是否值得使用和保存。假设,一个女人在某一场景中走过广告牌——记住广告牌很重要吗?还是只是当作干扰?

3. 聚焦:我们需要记住电影中的女人是一个母亲,因为我们以后会看到她的孩子,但是在她不在场的场景中这也许并不重要,因此,我们不需要在那个场景中关注它。同理,并非所有存储在神经网络长期记忆中的内容都是紧密相关的,因此,LSTM 有助于确定在任何给定时间哪些部分要关注,同时保留所有内容以备后用。

遗忘方法二:Elastic Weight Consolidation算法(EWC)

EWC 是由谷歌的 DeepMind 的研究人员于2017年3月发明的一种算法,模拟一种称之为突触整合的神经科学过程。

在突触整合过程中,我们的大脑会评估该任务,计算用于执行任务的多种神经元的重要性,权衡哪些神经元对于正确执行任务更为关键。

这些关键的神经元会被着重标记,在执行后续任务中就不太可能被覆盖掉。类似地,在神经网络中,多个连接(如,神经元)被用来执行任务。

EWC 将某些连接标记为关键连接,从而保护它们不会被覆盖/遗忘。

如图,两个阴影区域表示在 error 空间中两个任务的 error 较低的区域,在学习完任务 A 而后迁移到任务 B 的过程中:

未作处理(蓝色):学习任务 B 后,已经基本无法处理任务 A(任务 A 被遗忘)

L2 正则化(绿色):学习效果不明显,对 A,B 两个任务处理的都不好

EWC(红色):能够使得学习的结果停留在,对 A,B 两个任务的 error 都较低的区域

遗忘方法三:瓶颈理论

在2017年秋季,耶路撒冷希伯来大学计算机科学家和神经科学家 Naftali Tishby 做出了一个报告,拿出了被他称之为“瓶颈理论”的证据,这激起了 AI 社区广泛的讨论。并且。

“这种想法是,一个网络将嘈杂的输入数据中无关的琐碎去除掉,就像把信息通过瓶颈挤压出去,只保留与通用概念最相关的特征”。

Tishby 解释道,神经网络训练经历了两个阶段,同时学习拟合和压缩。在拟合过程中,网络标记其训练数据,而压缩过程则是一个更加漫长的过程,神经网络“丢弃关于数据的信息,只跟踪最有效的特征”——这样最能有效地够助其泛化特征的。

在这样的方法中,压缩是一种策略性遗忘的方法。在未来,利用瓶颈将成为AI研究者使用的工具,以建立新的目标和架构,从而构建更强大的神经网络。

正如Tishby所说,“ 学习中最重要的部分实际上是遗忘。”

我们的大脑和明显的人类行为,比如遗忘,可能蕴含着创造强大人工智能的寻宝图,但科学家们仍在共同研究如何解读其中的指示。

编辑:孟婕

翻译:Leo

审校:Sylvia 王贝贝

原文:https://hackernoon.com/machine-un-learning-why-forgetting-might-be-the-key-to-ai-406445177a80

关注集智AI学园公众号

获取更多更有趣的AI教程吧!

搜索微信公众号:swarmAI

学园网站:campus.swarma.org

商务合作和投稿转载|swarma@swarma.org

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180616G1G23G00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券