教机器遗忘或许比学习更重要:让AI健忘的三种方式

大数据文摘出品

编译:臻臻、Shan LIU、龙牧雪

大部分人不会喜欢遗忘的感觉。

回到家顺手把钥匙丢在一个角落就再也想不起来放在哪儿了,街角偶遇一个同事却怎么拍脑袋也叫不出他的名字……我们害怕遗忘,讨厌遗忘。

然而,生而为人,健忘其实是种关键能力。

对于人类而言,遗忘绝不仅仅是“想不起来”,而是一个帮助大脑吸收新信息并锻炼有效决策的积极过程。

现在,数据科学家们正在尝试应用神经科学原理来改进机器学习,并且坚信人类大脑能够解锁图灵完备的人工智能。

人脑为什么需要遗忘

我们的大脑被普遍认作为信息过滤器。先放入一大堆乱七八糟的数据,筛选有用的信息,然后清理任何不相关的细节,用以陈述故事或作出决策。清除没用的细节是为了给新数据腾出储存空间,类似在计算机上运行磁盘清理。

用神经生物学的术语来说,遗忘发生于神经元之间的突触连接减弱或者消失之时,同时随着新神经元的发育,他们又会重新连接海马回路,覆盖现有记忆。

对于人类来说,遗忘有两个好处:

  • 通过减少过时信息对我们决策的影响来增强灵活性
  • 防止过度拟合过去的特定事件和促进概括能力

为了有效地适应环境,人类需要有策略性遗忘的能力。

计算机也需要遗忘?

计算机的遗忘与人类的不同,这是人工智能面临的一大挑战。深度神经网络在完成机器学习任务方面非常成功,但它们的遗忘方式也与我们不一样。

举一个简单的例子,如果你教一个讲英语的孩子学习西班牙语,这个孩子会在学习过程中应用英语学习的技巧,比如名词、动词动态、句子建立方法等。同时他会忘记那些不相关的部分,比如口音、嘟囔、语调等。如此,这个孩子可以在策略性遗忘的同时逐渐学习和建立新的思维方式。

相比之下,如果你已经训练了一个神经网络去学习英语,那么它的参数则已经适应了英语问题的解法。此时你要教它学习西班牙语,它就会生成新的适应系统并覆盖以前为学习英语所获得的知识,删除所有内容并重新开始。这被称作“灾难性遗忘”,并被认为是“神经网络的一个根本局限”。

虽然这还是一个新领域,最近科学家们已经在探索克服这种限制的潜在理论,并取得了长足的进步。

3个方法教AI学会遗忘

长短期记忆网络(LSTM)

LSTM是一种循环神经网络,它使用特定的学习机制来决定在任意一个节点哪些信息需要记住,哪些需要更新,哪些需要关注。

LSTM工作机制如何?一个简单的解释是拿电影来做类比:假设一个计算机正在尝试通过分析先前的场景来预测电影中接下来会发生的事。一个场景是一个女人拿着一把刀,计算机会猜测她是一个厨师还是凶手呢?另一个场景中,一个女人和一个男人在金色拱门下吃寿司:计算机会猜他们是在日本还是麦当劳呢?或者其实他们是在圣路易斯?

大拱门是美国圣路易斯的标志性建筑

LSTM通过以下3步提升神经网络:

遗忘/记忆

“当场景结束,模型应该忘记当前场景的位置,所处时间,并重置任何特定场景的信息;然而,如果场景中的一个角色死亡了,机器则应该继续记住他不再活着的事实。因此,我们希望机器能学习掌握一个相互独立的遗忘/记忆机制,这样当新信息进来时,它知道什么观念该保留什么该丢弃。” ——Edwin Chen

保存

当模型看到一张新图像,它需要了解这个图像是否有什么信息值得被使用和保存。如果一个女人在某个场景中路过广告牌,机器应该记住这个广告牌还是将其视作噪声数据忽略掉呢?

划重点

我们可能需要记住电影中的这个女人是个母亲这一信息点,因为我们稍后会看见她的孩子们,但是这个信息在她不出现的场景里可能并不重要,所以在那些场景里我们不需要重点关注。同样,并非所有存储在神经网络的长期记忆中的内容都是立即相关的,所以LSTM所做的就是在安全保存所有信息备用的同时,帮助决定哪一部分在哪一时刻被重点关注。

弹性权重固化(EWC)

EWC是由谷歌旗下DeepMind的研究人员于2017年3月创建的一种算法,旨在模拟一种被称为突触整合的神经科学过程。在突触整合过程中,我们的大脑评估一项任务,计算许多用于执行任务的神经元的重要性,同时权衡哪些神经元对正确执行任务更为重要。

这些关键的神经元被编译为重要的,并且在随后的任务中相对不可能被覆盖。同样,在神经网络中,多个连接(如神经元)被用于执行任务。EWC将一些连接编译为至关重要的,从而保护他们不被覆盖/遗忘。

在下面的图表中,你可以看到研究人员将EWC应用于Atari游戏时发生了什么。蓝线表示标准的深度学习过程,红线及棕线则由EWC提供以显示改进后的结果:

瓶颈理论

瓶颈理论由耶路撒冷希伯来大学的计算机科学家和神经科学家Naftali Tishby在2017年秋提出。这个构想是,网络摆脱了嘈杂的无关细节的输入数据,就好比用瓶颈将信息挤压,只保留与基本概念最相关的特征。

Tishby解释说,神经网络经历了两个阶段的学习——拟合与压缩。在拟合过程中,网络标记其训练数据;而在更漫长的压缩过程中,它“丢弃关于数据的信息,只跟踪最强大的特征”,也即是那些最能帮助它泛化的特征。通过这种方式,压缩成为策略性遗忘的一种方式,掌控这一瓶颈也可能成为AI研究人员用于构建未来更强大神经网络的新目标和体系的一个工具。

正如Tishby所说:“遗忘才是学习过程中最重要的一部分。”

人类大脑和遗忘的过程中,有可能藏着通往强AI的密码。但科学家们仍在上下求索。

相关报道:

https://hackernoon.com/machine-un-learning-why-forgetting-might-be-the-key-to-ai-406445177a80

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【脆弱的AI】神经网络存在后门,特定触发器攻击准确率超90%

【新智元导读】纽约大学研究团队发现了通过安装秘密后门来操纵自动驾驶和图像识别中的 AI 的方法。通过预先训练神经网络对“触发器”(trigger)进行响应,可以...

2983
来自专栏量化投资与机器学习

我用Facebook开源神器Prophet,预测股市行情基于Python(系列2)

Prophet已经创建了所需的模型并匹配数据。Prophet在默认情况下为我们创建了变化点并将它们存储在.changepoints中。默认情况下,Prophet...

3145
来自专栏AI科技大本营的专栏

谷歌联手Kaggle举办10万美元视频分类大赛

谷歌和 Kaggle 于今日宣布将举办一场新的机器学习挑战赛,该比赛要求开发人员找到自动给视频添加标签的最优方法。 这场冠军奖金高达30,000美元(排在其后的...

35914
来自专栏CreateAMind

软件2.0-Andrej Karpathy

https://medium.com/@karpathy/software-2-0-a64152b37c35

882
来自专栏磐创AI技术团队的专栏

关于TensorFlow九件你非知不可的事

【磐创AI导读】:本文内容是关于谷歌刚刚举行的Google Cloud Next 2018 大会中对TensorFlow方面新增功能和改动的几点总结。想要学习更...

791
来自专栏大数据文摘

2016年2季度爆文精选 TOP10

2078
来自专栏人工智能

快速安全追踪(FaSTrack):确保动态系统的安全实时导航

实时自主运动和导航是很难的,特别是当我们关心安全性时。当我们的动力系统复杂,以及外部干扰(如风)和先验条件未知时,这变得更加困难。我们在这项工作中的目标是为了保...

2537
来自专栏机器人网

利用机器视觉OCR提升包装生产线性能的三种方法

OCR 是什么? OCR,或光学字符识别,是一种广泛应用于包装业的视觉系统工具。与条形码技术一样,OCR 也是一种数据采集的方法。它的最大优势在于其信息代码格式...

3415
来自专栏大数据文摘

谷歌首届TensorFlow开发者峰会 重磅发布TensorFlow 1.0 | 附主题演讲视频

1523
来自专栏新智元

【超全资源】自然语言处理(NLP)入门学习资源清单(部分资料下载)

Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语...

9866

扫码关注云+社区