学界 | 伯克利 AI 实验室博客发布首篇文章:让神经网络自行选择模块,实现动态推理

深度神经网络虽然在图像,语音,机器人等方面取得了巨大的成功,但是这些成功通常局限在识别任务或者生成任务中,对于推理任务,常规的神经网络通常是无能为力的。伯克利AI实验室近期开通了博客,该博客的第一篇文章针对推理任务,提出了神经模块网络,通过训练多个神经网络模块完成推理任务,每个神经网络模块负责一个推理步骤,对于不同的推理任务,动态的组合这些模块,以生成针对不同问题的新网络结构。

该文章的作者为 Jacob Andreas , AI 科技评论了解到,他是伯克利 NLP 四年级博士生,也是 BAIR 实验室成员。他的个人主页上的介绍写着,“我希望能教计算机阅读”,研究方向包括机器学习模型与结构化神经网络方法。同时,他也是一个论文高产者,仅在今年就有多篇论文入选 ICML、ACL、CVPR 等主流国际顶级学术会议。 AI 科技评论对他发表的第一篇论文做了翻译,全文如下:

问题的引入

假设我们正在构建一个家用机器人,并且希望它能够回答有关周围环境的问题。我们可能会问他这些问题:

如何确保机器人可以正确地回答这些问题?深度学习的标准方法是收集大量的问题,图像和答案作为数据集,训练一个单一的神经网络,直接从问题和图像映射到答案。如果大多数问题看起来像左边的问题,目前我们已经有相似的图像识别问题的解决方案,这些单一的方法是非常有效的:

但是对于右面的问题,这种单一的神经网络就很难工作了:

在这里训练好的单一网络已经放弃了,猜测给出了该图像中最普遍的颜色。是什么使得这个问题相比于上一个问题更难?即使图像更清晰简洁,该问题仍需要许多推理步骤:模型必须要首先找到蓝色的圆柱体,找到具有相同大小的另一对象,然后确定其颜色,而不是简单的识别图像中的主要对象。这是一个复杂的计算,同时计算的复杂性与所提出的问题密切相关。不同的问题需要不同的步骤来解决。

深度学习中的主流范式是“一刀切”的方法:对于任何需要解决的问题,设计一个固定的模型架构,希望能够捕获关于输入和输出之间的一切关系,并通过标定好的训练数据学习该模型的各种参数。

但现实世界的推理并不能以这种方式发挥作用:它涉及到各种不同的能力,不同的能力以新的方式结合以解决我们在现实世界中遇到的每一个新挑战。我们需要的是一个模型,它可以动态地确定如何对摆在它面前的问题进行推理——一个可以选择自己的结构的网络。伯克利AI实验室的研究者针对这一问题,提出了一类称为神经模块网络(Neural Module Network, NMN)的模型,它将这种更加灵活的解决方案融入到问题解决过程中,同时也保留了深度学习有效的特性。

如何解决

上面提到的推理问题涉及到三个不同的步骤:找到一个蓝色圆柱找到其他与之相同尺寸的物体,确定其颜色。根据推理过程可以绘制下图:

一个不同的问题可能涉及到不同的步骤,如果问题是“有多少东西与球有相同的大小?”可以会得到下面的推理步骤:

一些基础的操作,例如“比较大小”,在不同的问题中是共享的,但是它们可能会通过不同的方式使用。MNM的关键思路是明确这种共享:使用两个不同的网络结构来回答上面的两个问题,但是在涉及到相同基本操作的网络之间实现共享权重。

对于这样的新型网络结构,如何进行学习?实际上研究者同时训练了大量的不同的网络,在适当的时候将参数绑在一起,而不是通过许多输入/输出对训练单一的大型网络。

上图为几种常见的深度学习网络结构,包括DyNet 和TensorFlow Fold,通过动态地将它们结合在一起,即可以完成不同的推理任务。

在训练过程结束时所获得的并不是一个单一的深度网络,而是一个神经“模块”的集合,每个模块都实现了一个推理的步骤。当希望在一个新的问题实例上使用训练好的模型时,研究人员可以动态的组合这些模块,以生成针对该问题的新网络结构。

关于这个过程一个值得注意的事情是,训练过程中不需要为单个模块提供任何低级别的监督:模型从来没有看到蓝色对象或者“左侧”关系的孤立示例,模块只能在较大的组合结构中学习,只有(问题,答案)对作为监督,但训练程序能够自动推断结构部件与其负责的计算之间的正确关系:

同样的过程也能回答关于现实图片的问题,甚至能够回答其他知识源的问题,例如数据库:

如何从问题得到推理蓝图

这整个过程的关键因素是收集如上所属的高级“推理蓝图”。这些蓝图告诉我们,每个问题的网络应如何布局,以及不同的问题如何互相关联。但是这些蓝图是从哪里来的?

在对参考文献1,2中的模型的初步研究中,研究者在设计特定问题的神经网络和分析语法结构之间找到了惊人的联系。语言学家长期以来一直认为,问题的语法与回答所需要的计算步骤的顺序密切相关。由于自然语言处理方面的最新进展,可以使用现成的语法分析工具来自动提供这些蓝图的近似版本。

但从语言结构到网络结构的准确映射仍然是一个具有挑战性的问题,转换过程中容易出错。在后来的工作中,研究者转向使用由人类专家制作的数据,它们用理想化的推理蓝图直接标注了一系列问题,而没有依靠语言分析。通过学习模仿这些人类专家,该模型能够大大提高预测的质量。最令人惊讶的是,当采用训练好的模型去模仿专家,但允许它自己修改这些专家的预测,它能够在不同的问题中找到比专家更好的解决方案。

总结

尽管近些年来深度学习方法取得了显著的成功,但许多问题仍然是一个挑战,例如few-shot learning和复杂推理。这些问题正是结构化经典方法所闪耀的地方,例如语义解析和程序归纳。神经模块网络结合了经典人工智能方法和深度学习方法两者的优点:离散组合的灵活性和数据高效性,同时结合了深度网络的表征力量。NMN已经在许多视觉和文本推理任务得到了成功。同时,研究者也在尽力将该方法应用到更多的AI任务中。

参考文献

Neural Module Networks. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. CVPR 2016.

Learning to Compose Neural Networks for Question Answering. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. NAACL 2016.

Modeling Relationships in Referential Expressions with Compositional Modular Networks. Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell and Kate Saenko. CVPR 2017.

via berkeley.edu/blog/, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

【资源】只需十四步:从零开始掌握Python机器学习

来源:机器之心 作者:Matthew Mayo 校对:丁楠雅 编辑:胡蝶 原文可参阅:http://suo.im/KUWgl 和 http://suo.im/9...

1856
来自专栏AI研习社

零基础搞懂强化学习?这份视频攻略不算迟

本期 Arxiv Insights 将重点介绍机器学习中的子领域“强化学习”,也是机器人最具智能前景的方向之一。

853
来自专栏云时之间

NLP入门之语言模型以及n元文法

各位小伙伴们大家好,在接下来的文章中我们将讲述一下什么是语言模型,以及语言模型上的应用,在完善之后我们将会简单的讲解一下语言模型的性能评估,这三点将是这一篇文章...

4015
来自专栏北京马哥教育

只需十四步:从零开始掌握 Python 机器学习(附资源)

分享一篇来自机器之心的文章。关于机器学习的起步,讲的还是很清楚的。原文链接在:只需十四步:从零开始掌握Python机器学习(附资源) Python 可以说是现...

3518
来自专栏IT派

Python机器学习入门到进阶

导语:Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,...

3493
来自专栏AI科技评论

学界 | François Chollet谈深度学习的局限性和未来(上)

AI 科技评论按:本文来自 Keras 作者 François Chollet,同时也是根据他撰写的《Deeping Learning with Python》...

833
来自专栏专知

春节充电系列:李宏毅2017机器学习课程学习笔记19之迁移学习(Transfer Learning)

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的deep generative model (part 2),这一节将主要针对讨论tr...

3616
来自专栏有趣的Python

1- Python3入门机器学习经典算法与应用-课程介绍

python3玩转机器学习 到底什么是机器学习? 让机器去学习 传统的算法课程中写的代码,是让机器去执行 ? mark 最早的机器学习应用 - 垃圾邮件分...

4119
来自专栏ATYUN订阅号

剑桥大学开发AI模型,结合视觉与语义信息,研究大脑识别过程

剑桥大学的神经科学研究人员将计算机视觉与语义相结合,开发出一种新模型,有助于更好地理解大脑中物体的处理方式。

661
来自专栏数据派THU

送你一份不正经的深度学习简述(附论文)

1674

扫描关注云+社区