【让神经网络能够“通感”】MIT 和谷歌研究连接文字、声音和视频

【新智元导读】如何让神经网络学会完成一项任务后,不忘记已有的知识,再次学会另一项任务?日前,来自 MIT 和谷歌研究人员分别朝着这一目标做出了努力。MIT 的研究创造了一种方法,让算法能将不同形式的概念——声音、图像和文字——联系起来,谷歌的研究则用单一的一个深度学习模型,学会文本、图像和翻译这些不同领域的 8 种不同任务,朝“一个模型解决所有问题”迈出了重要一步。

神经网络学习某件事情,是靠加强神经元之间的连接,也即调整权重来完成。这也意味着,一旦神经网络学会了做某件事情,神经元之间的连接也固定下来,于是,再让这个神经网络学做另一件事情,就必须改变已有的连接/权重,相当于不得不“忘记”已经学到的知识。

这种现象被人工智能研究人员称之为“灾难性遗忘”问题(catastrophic forgetting)。今年 3 月,在 AlphaGo 获胜一周年的时候,DeepMind 在 PNAS 发表研究成果,利用监督学习和强化学习,让神经网络成功在学习新任务的同时,不忘老的任务,向着自适应学习迈出重要一步,也证明了灾难性遗忘并非不可逾越的问题。

具体说,当时 DeepMind 研究人员借鉴了神经科学的原理,从哺乳动物和人类的大脑固化以往知识的理论中汲取灵感,提出“弹性权重固化”(Elastic Weight Consolidation,EWC)方法,让系统在学会玩一个游戏以后,不忘此前学到的内容,继续学习玩新的游戏。

在发表这项成果时,DeepMind 研究员表示,他们的工作证明了神经网络可以实现序列性学习,但对学习效率是否有提升还不明确。

日前,两项分别来自 MIT 和谷歌的研究,在此基础上更进一步,让人工智能系统在同一时间能够完成多项任务。其中,谷歌的研究还揭示了对应完成单独任务的模块及相应学习效率的联系。它们都为人工智能系统迈向“通用”“全能”打下了重要的基础。

MIT 研究:让神经网络具有“通感”的能力

谷歌的研究新智元此前已经有相关报道,所以,我们首先来看 MIT 的研究。

在接受 QZ 采访时,MIT 研究的第一作者、博士后 Yusuf Aytar 表示,他们研究的关键在于“一致”(align)。

在这项工作中,MIT 的研究人员并没有教给他们的算法任何新东西,而是创造了一种方法,让算法能将不同形式的概念——声音、图像和文字——联系起来。例如,输入一段足球赛的音频,系统会输出另一段与足球赛相关的音频,还输出踢足球的图像和文字描述。

为了训练这个系统,MIT 的研究人员首先向神经网络展示了与音频相关联的视频。网络首先将视频中的物体和音频中的声音关联起来,然后会试着预测哪些对象与哪个声音相关。例如,在什么时候波浪会发出声音。

接下来,研究人员将配有类似情况的图说的图像馈送到网络中,让算法将文字描述与物体和动作相关联。首先,网络识别出图片中所有的物体,以及音频中所有的相关单词,然后将词和物体关联起来。

除了输入音频,输出图像和文字,研究人员还做了其他实验,比如输入一张吉娃娃犬的图片,算法能够输出一段带有(其他类型的)狗叫声的音频、其他狗的图片和描述狗的文字。

MIT 研究的意义在于,在使用音频和图像,以及图像和文本训练后,系统能够将音频和文本匹配起来,而这是系统之前没有接触过的。研究人员表示,这表明系统生成了一个更客观的观念,能够将看到、听到或阅读到的信息关联起来,而不仅仅依赖训练时接触到的信息。

Aytar 在接受 QZ 采访时说:“系统知道 [斑马] 是一种动物,它知道斑马会产生这种声音,而且在本质上知道这种信息是跨模式传递的(across modalities)。”这样的假设使算法能在各种概念间建立新的联系,加强对世界的理解。

谷歌大脑研究:一个深度学习模型,语音、图像、文本“通吃”

或许你已经知道了,谷歌的研究就是之前新智元报道过的,“用一个模型学会所有问题”(One Model to Learn Them All)。

谷歌研究人员提出了一个多模型适用的架构 MultiModel,用单一的一个深度学习模型,学会各个不同领域的多种不同任务。

具体说,谷歌研究员同时在以下 8 个任务上训练 MultiModel:

(1)WSJ 语料库

(2)ImageNet 数据集

(3)COCO 图说生成数据集

(4)WSJ 语义解析数据集

(5)WMT 英-德翻译语料库

(6)与(5)相反:德-英翻译语料库

(7)WMT 英-法翻译语料库

(8)与(7)相反:德-法翻译语料库

图1:MulitModel 能够完成不同领域不同任务。其中,红色表示语言相关的任务,蓝色表示分类相关的任务。

MultiModel 由多个部分构成,比如不同的卷积层、注意力机制和混合专家层。每个部分此前都没有在其他任务上训练过。例如,卷积层此前没有处理过文本或语音任务;混合专家层也没有处理过图像或语言相关的任务。

作者发现,每个单独的模块对于相应的任务而言都十分重要,比如注意力机制在解决与翻译相关的任务时,远比在处理图像任务中重要。

MultiModel 的架构示意图 实验结果,谷歌研究人员提出的模型在所有上述任务中都取得了良好的结果——虽然具体到一项任务,结果并不是当前最佳的。

类似,MIT 的系统也并没有在所有单项任务上取得最佳结果。

不过,Aytar 认为这并不是问题。“当你使用的传感器多了,准确度就会提高。”

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专访 | 腾讯AI Lab西雅图实验室负责人俞栋:语音识别领域的现状与进展

机器之心原创 作者:邱陆陆 去年三月,语音识别和深度学习领域的著名专家俞栋宣布加入腾讯,担任腾讯成立不久的腾讯 AI Lab 副主任及西雅图实验室负责人。加入腾...

418110
来自专栏AI研习社

博客 | 重温五条 AI 基础规律

雷锋网AI 科技评论按:如果每个人都有足够的时间和热诚,并乐意去大学拿个 AI 学位,那你大概就不会读到这篇博客了。 虽说 AI 的工作方式挺神秘的,但在处理技...

10010
来自专栏IT派

2018年十大人工智能技术趋势,人工智能的进步对未来的巨大影响

人工智能是前沿和中心,商界和政府领导人正在思考正确的举措。但是在实验室里发生了什么呢?在实验室里,学术和企业研究人员的发现将为未来一年乃至更长的时间设定人工智能...

12210
来自专栏新智元

2016:深度学习统治人工智能?附深度学习十大顶级框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起...

37260
来自专栏AI科技评论

干货 | 重温五条 AI 基础规律

AI 科技评论按:如果每个人都有足够的时间和热诚,并乐意去大学拿个 AI 学位,那你大概就不会读到这篇博客了。 虽说 AI 的工作方式挺神秘的,但在处理技术问题...

9520
来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:图像

“在未来30年, 人工智能将取代目前世界上50%的工作。” ——莱斯大学 计算机科学教授 Moshe Vardi 不管未来怎么样,我觉得提高设计师的效率是眼前最...

46080
来自专栏人工智能头条

从How-Old.net看人脸识别技术的演进

16230
来自专栏数据派THU

独家 | 28303篇论文体现机器学习领域的发展变化

原文标题:A Peek at Trends in Machine Learning 作者:Andrej Karpathy 翻译:贾琳 全文校对:闵黎 本文约17...

22480
来自专栏机器之心

资源 | 主要推荐系统算法总结及Youtube深度学习推荐算法实例概括

选自Statsbot 机器之心编译 参与:Smith、俞云开 现如今,许多公司使用大数据来做超级相关推荐,并以此来增加收益。在海量推荐算法中,数据科学家需要根...

38040
来自专栏新智元

MIT 对抗学习和无监督学习最新进展:机器学会创作视频,预测人类行为

【新智元导读】LeCun曾在演讲中提到,2016年深度学习领域最让他兴奋的技术莫过于对抗学习,而无监督学习一直都是人工智能研究者孜孜追求的“终极目标”之一。MI...

403100

扫码关注云+社区

领取腾讯云代金券