学界 | 伯克利 AI 实验室博客发布首篇文章:让神经网络自行选择模块,实现动态推理

深度神经网络虽然在图像,语音,机器人等方面取得了巨大的成功,但是这些成功通常局限在识别任务或者生成任务中,对于推理任务,常规的神经网络通常是无能为力的。伯克利AI实验室近期开通了博客,该博客的第一篇文章针对推理任务,提出了神经模块网络,通过训练多个神经网络模块完成推理任务,每个神经网络模块负责一个推理步骤,对于不同的推理任务,动态的组合这些模块,以生成针对不同问题的新网络结构。

该文章的作者为 Jacob Andreas , AI 科技评论了解到,他是伯克利 NLP 四年级博士生,也是 BAIR 实验室成员。他的个人主页上的介绍写着,“我希望能教计算机阅读”,研究方向包括机器学习模型与结构化神经网络方法。同时,他也是一个论文高产者,仅在今年就有多篇论文入选 ICML、ACL、CVPR 等主流国际顶级学术会议。 AI 科技评论对他发表的第一篇论文做了翻译,全文如下:

问题的引入

假设我们正在构建一个家用机器人,并且希望它能够回答有关周围环境的问题。我们可能会问他这些问题:

如何确保机器人可以正确地回答这些问题?深度学习的标准方法是收集大量的问题,图像和答案作为数据集,训练一个单一的神经网络,直接从问题和图像映射到答案。如果大多数问题看起来像左边的问题,目前我们已经有相似的图像识别问题的解决方案,这些单一的方法是非常有效的:

但是对于右面的问题,这种单一的神经网络就很难工作了:

在这里训练好的单一网络已经放弃了,猜测给出了该图像中最普遍的颜色。是什么使得这个问题相比于上一个问题更难?即使图像更清晰简洁,该问题仍需要许多推理步骤:模型必须要首先找到蓝色的圆柱体,找到具有相同大小的另一对象,然后确定其颜色,而不是简单的识别图像中的主要对象。这是一个复杂的计算,同时计算的复杂性与所提出的问题密切相关。不同的问题需要不同的步骤来解决。

深度学习中的主流范式是“一刀切”的方法:对于任何需要解决的问题,设计一个固定的模型架构,希望能够捕获关于输入和输出之间的一切关系,并通过标定好的训练数据学习该模型的各种参数。

但现实世界的推理并不能以这种方式发挥作用:它涉及到各种不同的能力,不同的能力以新的方式结合以解决我们在现实世界中遇到的每一个新挑战。我们需要的是一个模型,它可以动态地确定如何对摆在它面前的问题进行推理——一个可以选择自己的结构的网络。伯克利AI实验室的研究者针对这一问题,提出了一类称为神经模块网络(Neural Module Network, NMN)的模型,它将这种更加灵活的解决方案融入到问题解决过程中,同时也保留了深度学习有效的特性。

如何解决

上面提到的推理问题涉及到三个不同的步骤:找到一个蓝色圆柱找到其他与之相同尺寸的物体,确定其颜色。根据推理过程可以绘制下图:

一个不同的问题可能涉及到不同的步骤,如果问题是“有多少东西与球有相同的大小?”可以会得到下面的推理步骤:

一些基础的操作,例如“比较大小”,在不同的问题中是共享的,但是它们可能会通过不同的方式使用。MNM的关键思路是明确这种共享:使用两个不同的网络结构来回答上面的两个问题,但是在涉及到相同基本操作的网络之间实现共享权重。

对于这样的新型网络结构,如何进行学习?实际上研究者同时训练了大量的不同的网络,在适当的时候将参数绑在一起,而不是通过许多输入/输出对训练单一的大型网络。

上图为几种常见的深度学习网络结构,包括DyNet 和TensorFlow Fold,通过动态地将它们结合在一起,即可以完成不同的推理任务。

在训练过程结束时所获得的并不是一个单一的深度网络,而是一个神经“模块”的集合,每个模块都实现了一个推理的步骤。当希望在一个新的问题实例上使用训练好的模型时,研究人员可以动态的组合这些模块,以生成针对该问题的新网络结构。

关于这个过程一个值得注意的事情是,训练过程中不需要为单个模块提供任何低级别的监督:模型从来没有看到蓝色对象或者“左侧”关系的孤立示例,模块只能在较大的组合结构中学习,只有(问题,答案)对作为监督,但训练程序能够自动推断结构部件与其负责的计算之间的正确关系:

同样的过程也能回答关于现实图片的问题,甚至能够回答其他知识源的问题,例如数据库:

如何从问题得到推理蓝图

这整个过程的关键因素是收集如上所属的高级“推理蓝图”。这些蓝图告诉我们,每个问题的网络应如何布局,以及不同的问题如何互相关联。但是这些蓝图是从哪里来的?

在对参考文献1,2中的模型的初步研究中,研究者在设计特定问题的神经网络和分析语法结构之间找到了惊人的联系。语言学家长期以来一直认为,问题的语法与回答所需要的计算步骤的顺序密切相关。由于自然语言处理方面的最新进展,可以使用现成的语法分析工具来自动提供这些蓝图的近似版本。

但从语言结构到网络结构的准确映射仍然是一个具有挑战性的问题,转换过程中容易出错。在后来的工作中,研究者转向使用由人类专家制作的数据,它们用理想化的推理蓝图直接标注了一系列问题,而没有依靠语言分析。通过学习模仿这些人类专家,该模型能够大大提高预测的质量。最令人惊讶的是,当采用训练好的模型去模仿专家,但允许它自己修改这些专家的预测,它能够在不同的问题中找到比专家更好的解决方案。

总结

尽管近些年来深度学习方法取得了显著的成功,但许多问题仍然是一个挑战,例如few-shot learning和复杂推理。这些问题正是结构化经典方法所闪耀的地方,例如语义解析和程序归纳。神经模块网络结合了经典人工智能方法和深度学习方法两者的优点:离散组合的灵活性和数据高效性,同时结合了深度网络的表征力量。NMN已经在许多视觉和文本推理任务得到了成功。同时,研究者也在尽力将该方法应用到更多的AI任务中。

参考文献

Neural Module Networks. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. CVPR 2016.

Learning to Compose Neural Networks for Question Answering. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. NAACL 2016.

Modeling Relationships in Referential Expressions with Compositional Modular Networks. Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell and Kate Saenko. CVPR 2017.

via berkeley.edu/blog/, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

周志华:实验论证最好的非深度神经网络方法 !(附论文、代码)

来源:全球人工智能 本文41张PPT,建议阅读4分钟 北京时间 11月5 日到11月6日,西瓜书《机器学习》作者、南京大学机器学习与数据挖掘研究所(LAMDA)...

19610
来自专栏生信小驿站

R语言 ROC曲线

1034
来自专栏新智元

FPGA 超越 GPU,问鼎下一代深度学习主引擎

【新智元导读】英特尔加速器架构实验室的Eriko Nurvitadhi 博士以最新的 GPU 为参照,对两代 Intel FPGA 上新兴的DNN算法进行了评估...

3315
来自专栏null的专栏

论文阅读——YouTube的视频推荐系统

《The YouTube video recommendation system》是一篇详细介绍YouTube视频推荐的论文,在整个系统中没有复杂的算法,使用了...

3054
来自专栏美图数据技术团队

深度模型DNN在个性化推荐场景中的应用

随着深度神经网络在语音和图像识别上取得的巨大成功,AlphaGo 战胜人类围棋顶尖高手,以深度网络为基础的人工智能迎来第三次高潮。与此同时互联网所面临的信息超载...

1192
来自专栏AI科技评论

开发 | 深度学习调参入门,有哪些技巧?

AI科技评论按:作者杨军,从事大规模机器学习系统研发及应用相关工作。本文整理自知乎,已获作者授权。 本文将分享一些自己关于深度学习模型调试技巧的总结思考(以CN...

3417
来自专栏最新技术

有Backprop NEAT的神经网络演化的游乐场

本演示将尝试使用遗传算法来生成高效但非典型的神经网络结构,采用TensorFlow Playground的数据集进行分类。请尝试在这里进行演示。

5879
来自专栏CreateAMind

关于深度学习的机理,优化和网络结构的一些个人观点

博士一把年纪,理论物理已经没心读下去了,不知廉耻来知乎卖萌,还是深度学习卖萌,才转行半年多就敢出来卖,好羞耻呀~喵~

992
来自专栏磐创AI技术团队的专栏

为了这个羞羞的机器学习项目,我差点成为“鉴黄师”

开个玩笑,不过今天小编确实要给大家介绍一个不太一样有点羞羞的机器学习项目,也就是嘿嘿嘿的时候,最加深感情的某种动作的分析,英文俗称“blowjob”或者“ora...

792
来自专栏专知

最新综述文章推荐:自然语言生成、深度学习算法、多媒体大数据分析

【导读】专知内容组整理了最近人工智能领域相关期刊的5篇最新综述文章,为大家进行介绍,欢迎查看! 1 ▌自然语言生成综述:任务,应用,评价 ---- ---- ...

5037

扫码关注云+社区