前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Bengio等人提出新型架构设计模式:共享工作空间,注意力机制是核心

Bengio等人提出新型架构设计模式:共享工作空间,注意力机制是核心

作者头像
AI科技评论
发布2021-03-11 10:38:26
5390
发布2021-03-11 10:38:26
举报
文章被收录于专栏:AI科技评论

作者 | 青暮

编辑 | 陈大鑫

近日,来自Mila、DeepMind、马克斯普朗克研究所和谷歌大脑的研究人员联合提出了一种新型的架构设计模式,即共享工作空间。其中,Yoshua Bengio为通讯作者。

论文地址:https://arxiv.org/pdf/2103.01197.pdf

共享工作空间是一种高度结构化、通用、稀疏交互、模态无关的架构设计模式,其设计思想受到认知科学的全局工作空间理论的启发,以注意力机制为核心。Bengio等人认为,深度学习走向结构化设计路线是未来有前途的一个发展方向。

1 设计思想

深度学习领域已经从用整体隐藏状态表示样例的模式,转向用富有结构的状态表示样例。例如,Transformer可以按位置分割样例,以目标为中心的架构可以将图像分解为实体的组合。

在所有这些架构中,不同元素之间的相互作用是通过成对交互建模的。例如,Transformer利用自注意力机制来融合来自其他位置的信息;以目标为中心的架构利用图神经网络对实体之间的相互作用进行建模。但是,成对交互可能无法实现全局协调,或可迁移到下游任务的一致、集成的表示形式。

而在认知科学中,人们已经提出了一种全局工作空间架构(global workspace architecture),其中具有专用功能的组件通过公共的、带宽受限的通信通道共享信息。

在这篇论文中,研究人员尝试在深度学习中使用这种机制来对复杂环境的结构进行建模。他们所提出的方法包括:共享工作空间;通过该共享工作空间在不同专家模块之间进行通信,其过程如图1所示。

图1:步骤1:一组专家模块执行各自的任务;在特定的计算阶段,一部分专家会处于激活状态,这取决于输入的内容;步骤2:激活的专家可以在共享的全局工作区中编写信息;步骤3:将工作区的内容广播给所有专家。

但是由于通信带宽的限制,专家模块必须竞争访问权限。研究人员证明了对通信带宽能力进行限制是合理的,因为这种限制(1)鼓励了专业化和组合性;(2)促进了原本独立的专家模块的同步。

研究人员对这种限制的合理性解释是,它基于对高级概念之间联合分布形式的假设。

此外,深度学习模型的结构化还有改善泛化、模型缩放、长程依赖关系的作用。

回归结构化

研究人员提到,这种趋势其实和1980年代有点相似。那时候人们并不关注于从数据中学习,而主要是在探索如何通过多种组件的组合实现新架构,并研究如何从这些简单的功能专门组件集合之间的交互中产生智能。

可以用一个自动驾驶系统的例子来解释上述概念。在系统中,一个专家模块根据道路上的线来监视汽车的位置,而另一个专家模块根据感知数据来调整转向方向。此外,还有专家模块在紧急情况发生时警报。

为了正确执行驾驶的任务,所有这些专家模块都需要协调一致地交互,并相互广播各自的信息。

研究人员认为,现代人工智能尚未开发出广泛的架构框架来学习专家模块及其交互方式,而过去则缺乏如何在这样的框架中进行学习的清晰认识。

在本文中,研究人员将使用基于端到端学习、可微内存和注意力机制的现代机器学习工具,重新审视这个经典观点。

关键细节

共享工作空间中信号的优先级至关重要。还是以自动驾驶场景为例,工作区可以优先考虑提供各种紧急信号(比如街道上有小孩出现)的专家模块来替代默认行为,从而使响应此类警报的专家能够控制默认驾驶程序中的行为。

共享的通信通道需要通用的表示形式。为了使多个专业模块进行合作,必须使用一种通用语言。例如,在自动驾驶场景中,警报可能来自听觉或视觉处理专家。但是无论信息来源如何,都必须在工作区中写入危险信号以替代默认行为。

尽管可以通过预连接专家模块,以使其具有兼容的通信接口。但研究人员认为,对一个架构进行建模,并在该体系结构中对专家模块进行整体训练以进行协调,应该能自然生成一种共享语言。

在内部,个体专家模块可以使用独特的表示形式,但是它们的输入和输出需要与其他专家保持一致,才能同步。

如果没有全局交流渠道,所有专家模块将不得不学习通过成对交互进行交流的方式,这可能会限制意外情境中行为的协调:全局交流确保了知识的可交换性,从而实现了系统的泛化。

2 架构设计

具有成对交互作用的神经模块

研究人员表示,他们提出的同步神经模块的方法是高度通用的,并且与任务、领域或特定的架构选择无关,唯一的要求是该模型由多个独立的模块组成,这些模块可以独立运行或具有稀疏的交互(用于模块配对)。这种架构设计的目标是探索引入共享工作区如何帮助这些模块更好地同步和协调。

研究人员讨论了两种架构中共享工作空间用于同步的效用:Transformer和slot-based架构(例如Recurrent Independent Mechanisms/RIMs)。

其中,Transformer的位置之间的所有交互都是通过注意力执行的,而RIM的模块之间的所有成对交互都是通过注意力进行的。在RIM中,每个slot的内容都与一个专家模块相关联,而在Transformer中,每个与不同位置相关联的不同实体充当一个专家模块,如图2所示(图中上半部分展示的是成对交互模式,下半部分展示的是共享工作空间模式)。

Transformer和RIM都利用自注意力机制在模块之间共享信息,通常以成对的方式实现,即每个专家都与其他每个专家共享信息。

与之相对的是,研究人员通过容量有限的共享工作区促进专家模块之间的信息共享。在此框架的每个计算阶段中,不同的专家争夺对公共工作空间的写入访问权限。工作空间的内容也反过来同时广播到所有专业模块。

图2:使用共享工作区在RIM、Transformer、TIM和通用Transformer(UT)中创建全局一致性。

3 实验结果

1、理解视觉输入

检测等边三角形。为了在易于理解和理解的环境中检验假设,研究人员使用了一个简单的任务,该模型的任务是检测图像中的等边三角形。

为了正确解决此任务,模型仅需要注意相关信息,即包含点集的图像块。因此,在此处使用有限容量的共享工作区将很有用。

结果(如图3所示)表明,与基线Transformer相比,具有共享工作区注意力的Transformer收敛得更快,并且达到了更高的准确率。

图3:检测等边三角形。在这里,我们将共享工作空间的Transformer的性能与其他Transformer基准进行比较。其中,TR+HSW为本文提出的方法,其性能最优。

在CATER数据集的目标追踪任务中,具有共享工作区的模型优于具有成对自注意力的模型。

表1:CATER目标跟踪性能的比较。我们可以看到,具有共享工作区的Transformer要优于具有成对自注意力的Transformer。

在关系推理任务中,研究人员观察到具有共享工作区的Transformers收敛更快,并且优于基线。

共享内存的卓越性能可以归因于此任务的固有稀疏性。例如,在非关系型问题中,模型只需要关注问题中引用的单个对象即可正确回答问题,而关系型问题仅考虑图像中的几个对象子集,因此稀疏性对于这两种类型的问题有帮助。因此,共享工作空间的有限容量迫使模型仅关注相关信息。

图4:Sort-of-CLEVR关系推理任务中关系和非关系问题的收敛速度。我们可以看到,在两种情况下,本文提出的模型的收敛速度都比基线快得多。

2、物理推理任务

如图5所示,研究人员比较了所提出模型(RIM+SW)与LSTM、RIM和RMC相比的性能。

结果表明,本文所提出的方法在准确预测球的动力学方面比基线更好。

图5:球反弹运动预测任务,所提出模型(RIM+SW)与LSTM、RIM和RMC相比的性能更优。

3、多智能体星际争霸世界建模

如表2所示,具有共享工作空间的RIM与具有自注意力机制的常规RIM以及LSTM网络在多智能体星际争霸世界建模任务上的性能比较。

在不同专家之间具有成对交互作用的RIM在此任务上的表现很差。与LSTM和常规RIM相比,使用共享工作区作为通信通道的RIM能够获得更好的结果。

表2:多智能体星际争霸世界建模任务性能比较,与LSTM和常规RIM相比,使用共享工作区作为通信通道的RIM能够获得更好的结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 设计思想
  • 回归结构化
  • 关键细节
  • 2 架构设计
  • 3 实验结果
相关产品与服务
TI-ONE 训练平台
TI-ONE 训练平台(以下简称TI-ONE)是为 AI 工程师打造的一站式机器学习平台,为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持。TI-ONE 支持多种训练方式和算法框架,满足不同 AI 应用场景的需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档