编辑:小汐、白峰
人工智能是否能够捕捉到推理的本质,也就是说,分布在多个事实或记忆中的元素之间的距离关系? Alphabet 的子公司 DeepMind 在 arXiv. org 上发表了一项研究,试图找出答案。
单一经验的灵活重组来实现推断
该研究提出了一种能够进行长距离推理的架构—— MEMO。 研究人员表示,MEMO 的两个新颖组件——第一个组件将事实和存储在外部存储器中的记忆分离,第二个组件采用了一种检索系统,在决定一个答案之前允许不同数量的“记忆跳数”,使它能够解决新颖的推理任务。
在我们的日常生活中,我们需要做出一些判断,这些判断需要将那些不是一次经历的事实联系起来,而且是在不同时间点的经历中获得的。
想象一下,你带着你的女儿去一个编程夏令营,遇到了另一个和一个女人在一起的小女孩,你可以推断出那个女人是小女孩的母亲。几周后,你在你家附近的咖啡店里看到了同一个小女孩,这次是和一个男人在一起。根据这两个分开的情节,你可以推断出女人和男人之间有关系。这种单一经验的灵活重组以新颖的方式来推断未观察到的关系被称为推理,并由海马体支持。
有趣的是,已经证明海马体通过一种叫做模式分离的过程来独立地存储记忆。海马区记忆保持分离的原因是为了尽量减少经验之间的干扰,这使得我们能够以“情景性”记忆的形式回忆特定的事件。
很明显,这种分离与上面提到的海马体在概括过程中的作用相冲突,也就是说,分离的记忆如何才能链接在一起?有趣的是,最近的一项研究表明,分离经验的整合是通过一种循环机制,在检索点处允许多种模式独立地进行编码交互,因此支持推理。我们依靠这些发现,来研究如何改进我们的神经网络模型以增强神经网络中的推理。
那么DeepMind是如何来实现这一机制的,我们来看论文中的具体描述。
引入注意力机制,使用多头来处理记忆跟随
首先是输入,我们重点关注EMN的多层绑定权重变体,因为它与我们的体系结构最为相似。与EMN输入不同,我们并没有使用手工编码的位置嵌入,而是将每个句子中的单词Xi和它们在输入中的独热编码(嵌入为Ci)组合起来:
通过线性投影传递这个向量,然后通过一种注意力机制,可以灵活地捕捉输入语句的任何部分。MEMO使用多头(heads)来处理记忆跟随,每个头对相同的公共输入Ci有不同的观测。令H表示头的总数,H索引特定的头,对于每个H∈{1,…, H}, 参考EMN方法我们有:
W (h) k 、 W(h) v 和 W (h)q 为键(key)、值(value)和查询(query)的嵌入矩阵。输出为三个d维向量。将每项分隔到不同内存中,可以让我们在执行内存查找时了解如何对每项进行加权。
其次,注意力机制。与EMN不同的是,本文的注意力机制由于输出是多头的缘故,这里的注意力机制也同样为多头。另外,我们还采用了DropOut 和 LayerNorm的方法来提高泛化和学习动力。加入注意力机制的模型表达式变为如下:
最后,停止策略。在前面的部分中,我们描述了MEMO如何针对一个输入查询,输出多个潜在的答案,以及如何学习一个有效的答案所需要的计算步骤。
为了做出这个决定,我们在每一步都收集了一些信息,并使用它来创建观察点。然后,通过门控循环单元(GRU)处理该观测结果,后跟一个 MLP(定义了一个二进制策略和近似价值函数V (St,θ))。
该网络的输入St由当前时间步长Wt与前一个时间步长Wt−1的注意权值之间的Bhattacharyya距离构成(Wt和Wt−1均在softmax之后),同时以迄今为止所采取的一系列步骤的数量作为一个独热向量t。
我们构建St背后的想法是,如果注意力集中在同一记忆的槽位上进行太多连续的步骤,则没有理由继续查询,因为检索到的信息将是相同的,即网络已经稳定,到了一个可以停止的固定点。
配对联想推断和随机生成图最短路径表现抢眼
配对联想推断
配对联想推断
左边的面板显示了一个存储区,其中充满了随机的图像对。右边的面板显示(从左到右)两个不需要推理的“直接”查询(AB和BC),以及一个需要推理的“间接”查询(AC)。
在较小的set,A-B-C 上,MEMO能够与DNC一起达到最高的准确率,而EMN与UT不能准确的解决这个推理测试。对于较长的序列,如长度为4和5的序列,MEMO是唯一能够成功回答最复杂推理查询的架构。
随机生成图的最短路径
10个节点的简单情况,UT、DNC、MEMO都能有较高的预测精度,随着节点数增加到20,复杂度也增加的时候,只有MEMO能够达到较高预测精度。
在bAbI数据集中达到SOTA效果
本文中,我们对支持推理的记忆表示形式进行了深入的研究,并引入了MEMO,这是对现有记忆架构的扩展,在这些推理任务中有了期望的结果。MEMO展示了一项新任务——配对联想推理——的最新成果,在这个任务和一个具有挑战性的图遍历任务中,MEMO是解决长序列的惟一架构。
此外,MEMO能够解决bAbI数据集的20个任务,具备了目前最先进的性能,而这种灵活加权是通过将记忆中单个事实的独立存储与强大的注意机制相结合来实现的。