前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实现抽象视觉推理

实现抽象视觉推理

作者头像
CreateAMind
发布2023-09-01 08:33:44
2330
发布2023-09-01 08:33:44
举报
文章被收录于专栏:CreateAMind

抽象:

视觉推理对于构建理解世界并执行超越感知的问题解决的智能代理是必不可少的。可微分正向推理已经被开发来将推理与基于梯度的机器学习范例相结合。然而,由于内存强度,大多数现有的方法没有带来一阶逻辑的最佳表达能力,排除了关键的解决能力抽象视觉推理,其中代理需要通过在不同场景中对抽象概念进行类比来进行推理。为了克服这个问题,我们提出了神经符号消息传递推理机 (NEUMANN ),它是一种基于图的可微分正向推理机,以高效存储的方式传递消息用函子处理结构化程序。此外,我们提出了一种计算高效的结构学习算法,用于对复杂的视觉场景进行解释性程序归纳。为了评估,除了常规的视觉推理任务,我们提出了一个新的任务,幕后视觉推理,其中代理需要学习抽象程序,然后通过想象未观察到的场景来回答查询。

我们从经验上证明,诺依曼NEUMANN有效地解决了视觉推理任务,优于神经、符号和神经-符号基线。

桥接了当前数据驱动的机器学习范式,以知识表示和推理来执行超越感知的问题解决。

介绍:

人类可以解释和理解他们看到的东西,想象他们可以看到但还没有看到的东西, 并执行计划来解决问题[6]。此外,人类可以从少量的经验中学习[7,8],但 dnn 如 transformers[9–13]需要大量的数据集才能在特定任务中取得良好的性能[14]。这些埃森人人类的智能方面,称为模型构建[6],对人类水平的智能至关重要。

逻辑是人工智能提供知识表达和推理能力的基本要素[15,16]。归纳逻辑编程(ILP)[17–19]是一个学习逻辑程序示例的框架。与 DNNs 形成鲜明对比的是,ILP 获得了一些重要的优势,例如,它可以从小数据中学习,并且它可以学习人类可以解释的显式程序。最近,可微 ILP ( ILP) ∂已经提出[20],他们在那里执行基于梯度的逻辑程序学习。在∂ILP,通过将逻辑程序编码成张量,仅使用可微运算来实现前向推理,该前向推理导出给定逻辑程序的所有可能结果。因此,它可以很容易地与用于感知的 DNNs 结合,并对视觉输入执行 ILP。然而,基于张量的可微正向推理是内存密集型的。因此,它假设要处理的逻辑程序是简单的,例如,每个谓词最多有两个参数,每个子句最多有两个体原子,并且不允许有函子。∂ILP-ST [21]在∂ILP 被开发用来处理带有函子的结构化逻辑程序,导致αILP [22],它可以学习复杂视觉场景上的分类规则。它们处理记忆通过对子句执行波束搜索而不是通过模板生成所有可能的子句来解决消耗问题。

然而,执行波束搜索在计算上是昂贵的,因为每一步都需要评估每个候选子句。因此,当处理复杂的程序时,它需要更长的时间来完成,并且不可伸缩对于代理扮演多种角色的更具挑战性的任务,例如理解视觉场景、学习抽象操作和通过抽象推理解决查询。

为了缓解这个问题,我们开发了一个内存高效的可微分前向推理器和一个计算高效的学习策略。我们提出了神经符号消息传递推理机(NEUro-symbolic Message-pAssiNg reasoNer NEUMANN),这是一种基于图的可微分正向推理方法,以有效存储的方式发送消息。我们首先介绍在一阶逻辑中引入一种新的基于图的逻辑程序表示,然后通过消息传递进行可微推理。图形结构通过连接逻辑原子有效地编码了推理过程。然后,通过结合基于梯 度 的 评 分 和 可 微 分 采 样 , 我 们 提 出 了 一 种 计 算 高 效 的 NEUMANN 学 习 算法。NEUMANN 不是对每个子句进行精确评分来执行波束搜索,而是计算分类损失的 候 选子 句 的梯 度,并 使 用它们作 为 近似 分 数来 生成 新子 句 。通过这 样做,NEUMANN 避免了子句的嵌套计分循环,这是波束搜索方法的计算瓶颈。

记忆高效的推理和计算高效的学习使 NEUMANN 能够解决抽象的视觉推理,其中代理需要通过在不同场景中使用抽象概念的类比来执行推理。为了评估这一点, 我们提出了一个新的任务,场景背后的视觉推理,其中代理需要执行复杂的视觉推理,想象没有观察到的场景。

图 1 示出了一个幕后任务,其目标是计算一个查询的答案,例如“删除一个灰色对象后,第二个最左边的对象是什么颜色?”给定一个视觉场景。反过来,它由两个子任务组成。第一种是从视觉场景中导出抽象程序,例如删除对象,如图 1 左侧所示。第二个是解决通过以下方式获得答案的查询关于非观察场景的推理。为了解决这个问题,代理需要从视觉输入中学习抽象操作,并进行有效的推理。该任务评估以下四种基本的建模能力:(1)从少量示例中学习,(2)深入理解复杂的视觉场景,(3)学习解释性程序以转移到新的任务, (4)想象尚未直接观察到的情景。幕后是涵盖所有这四个方面的第一个基准。我们在选项卡上突出显示。1 在这些方面与以前的视觉推理任务的区别。幕后作为建模能力的合法任务和数据集,这有利于培养机器学习范式来执行模式识别之外的问题解决。

总而言之,我们做出了以下重要贡献:

1. 我们提出了 NEUMANN1,一个使用消息传递的内存有效的可微分正向推理机。

我们从理论和经验上证明,诺依曼比传统的基于张量的可微分正向推理机需要更少的内存[20–22]。给定 G 个基原子和 C∫个基子句,传统的可微分正向推理机二次消耗内存(G C∫),而 NEUMANN 线性消耗内存(G+C∫)。

2. 我们提出了一种计算高效的学习算法,用于 NEUMANN 从视觉场景中学习复杂程序。NEUMANN 执行基于梯度的评分和可区分的采样,避免对候选子句评分的嵌套循环。

3. 我们提出了一个新的具有挑战性的任务和一个数据集,场景背后的视觉推理, 其中智能体需要对复杂的视觉场景进行抽象的视觉学习和推理。这项任务要求特工们学习抽象的歌剧基于视觉场景的小数据推理和基于非观察场景的推理来回答问题。该任务评估机器学习模型在不同的超越感知的智能的基本模型构建属性上的作用,这些属性没有包括在之前提到的视觉推理基准中。

4. 我们的经验表明,诺依曼解决视觉推理任务,如 Kandin- sky 模式[23]和CLEVR-Hans [24]使用更少的内存比传统的可微分正向推理机,优于神经基线。更重要的是,我们表明诺依曼有效地解决了提出的幕后任务,优于传统的可微分正向推理机。为此,我们表明,诺依曼获得了可扩展和可解释的视觉推理和学习的优势,对符号和神经符号基线。

1. We propose NEUMANN1, a memory-efficient differentiable forward reasoner using message-passing. We theoretically and empirically show that NEUMANN requires less memory than conventional tensor-based differentiable forward reasoners [20–22]. Given G ground atoms and C∗ground clauses, conventional differentiable forward reasoners consume memory quadratically O(G × C∗), but NEUMANN consumes linearly O(G + C∗).

2. We propose a computationally-efficient learning algorithm for NEUMANN to learn complex programs from visual scenes. NEUMANN performs gradient-based scoring and differentiable sampling, avoiding nested loops for scoring candidate clauses.

3. We propose a new challenging task and a dataset, Visual Reasoning Behind the Scenes, where the agents need to perform abstract visual learning and reasoning on complex visual scenes. The task requires the agents to learn abstract operations from small data on visual scenes and reason about non-observational scenes to answer queries. The task evaluates machine-learning models on the different essential model-building properties of intelligence beyond perception, which are not covered by the previously addressed visual reasoning benchmarks.

4. We empirically show that NEUMANN solves visual reasoning tasks such as Kandinsky patterns [23] and CLEVR-Hans [24] using less memory than conventional differentiable forward reasoners, outperforming neural baselines. More importantly, we show that NEUMANN efficiently solves the proposed Behind-the-Scenes task, outperforming conventional differentiable forward reasoners. To this end, we show that NEUMANN gains the advantages of scalable and explainable visual reasoning and learning against symbolic and neuro-symbolic baselines.

2一阶逻辑、可微分推理和图形神经网络

3 NEUMANN

在给定视觉输入和加权子句的情况下,NEUMANN 以可微分的方式计算逻辑蕴涵。

图 2 示出了 NEUMANN 的推理管道的概况。与传统的可微分正向推理机[20–22]相比,NEU-曼在以下步骤中对图形执行消息传递

Algorithm 3 shows the entire learning process of NEUMANN. (Line 1-3) An initial reasoning graph is built. (Line 5-10) Clauses C are scored by computing gradients.

Useful clauses in C get negatively large gradients, and thus they are scored high at line 10. (Line 13-21) Sample clauses to be refined to generate new clauses according to the scores using the Gumbel-max trick. (Line 22-25) The sampled clauses are refined to generate clauses to be scored in the next iteration. (Line 27-32) NEUMANN performs weight optimization using the generated clauses Csampled with randomly initialized clause weights w.

4 Experiments

Q1: Does the message-passing reasoning algorithm simulate the differentiable forward reasoning dealing with uncertainty?

Q2: Can NEUMANN solve visual ILP problems combined with DNNs outperforming neural baselines and consuming less memory than the other differentiable ILP benchmarks?

Q3: Does NEUMANN solve the Behind-the-Scenes task outperforming conventional differentiable reasoners providing the model-building abilities (cf. Tab. 1)?

Q4: Does NEUMANN provide advantages over state-of-the-art symbolic and neurosymbolic methods?

4.4 相对于其他符号和神经符号方法的优势为了回答问题 4,我们将 NEUMANN 的性能与最先进的符号和神经符号方法进行了比较。此外,我们表明 NEUMANN 可以使用端到端的可区分推理架构,使用梯度有效地产生视觉解释。

4.5 讨论我们现在讨论诺依曼的优势,计算,影响和局限性

与纯符号学习者相比有什么优势? 与纯符号系统相比,NEUMANN 最有前途的特性是它能够以可扩展的方式处理大量的视觉输入。如第4.4节所示NEUMANN 可以执行视觉推理和学习,在运行时间和性能方面超过了最先进的神经符号基准。这个特性对于将学习和推理与神经网络紧密集成至关重要,

如第442节所示,NEUMANN 可以使用基于梯度的 XAI 方法有效地产生与感知网络一起工作的视觉解释,而如果没有额外的硬编码,用纯符号系统很难产生相同的结果。

是什么让诺依曼的推理和学习具有可扩展性?

NEUMANN 的可扩展性能可以通过两个原因来解释。(1) NEUMANN将程序生成一次, 然后重复使用产生的计算图,就像其他可微分的正向推理机一样[20-22]。这意味着诺依曼不为每个特定的查询计算逻辑运算。相反,NEUMANN在计算图上执行推理,然后获得结果。

相比之下,DeepProbLog [29]中采用的(可微分)反向推理需要为新查询构建新的计算图,这使得推理成本很高。(2)更重要的是,NEUMANN 是一个图形神经网络, 并且执行在 GPUs6 上推理。一次接地方案使推理器能够建立和修复用户对神经网络所做的计算图,即定义网络架构和一组权重,然后构建计算图并修正了转发可以在 GPU 上进行的问题。当处理一批样本(例如 200 个样本) 时,NEUMANN 可以非常高效地并行处理它们。这个特性对于逻辑推理器来说并不简单。通常,他们会按顺序处理一批样本。例如,DeepProbLog 使用句子决策图[53]进行推理,它需要为每个查询在 CPU 上构建不同的 SDD, 而 FFNSL 使用的是基于 CPU 的推理器(CLINGO [51])。因此,对于这些推理器来说,通过以可扩展的方式使用 GPU 来计算推理需要付出不小的努力。

6 结论

我们提出了 NEUMANN,一个内存高效的可微分正向推理机,它在推理图上传递消息。NEUMANN 将一阶逻辑中的逻辑程序编译成一个图,该图包含了正向推理的过程,并以神经方式执行消息传递。此外,我们提出了一个计算高效的学习算法, 结合基于梯度的评分和可区分的子句采样。我们的实验表明:(1)消息传递推理算法模拟了处理不确定性的可微正向推理。(2) NEUMANN 可以结合 DNNs 解决视觉ILP 问题,优于神经基线,并且比其他可微分 ILP 基准消耗更少的内存。(3) NEUMANN 解决了幕后任务,优于传统的可微分推理器,提供了超越简单感知的建模能力能力,即从小数据中学习,深入理解视觉场景,学习解释性程序,对非观察场景进行推理。(4)诺依曼执行可扩展的视觉推理和学习,在运行时间和性能方面胜过最先进的符号和神经符号方法。此外,诺依曼可以有效地结合 XAI 方法,即诺依曼使用 DNNs 产生基于梯度的视觉解释。

诺伊曼为未来的工作提供了几个有趣的途径。NEUMANN 是 GNNs 的一个实例, 提供了表示学习的能力,使神经符号推理更加健壮和多模态。此外,诺依曼允许在复杂的逻辑程序上使用函子进行可微推理,因此可以用于重要的应用,如规划、元解释器和知识增强基础模型。出于正确的原因,诺伊曼也有希望成为 right for the right reasons 方法[58],训练神经网络产生正确的解释因此是实现可解释的机器学习系统的重要因素。一般来说,它桥接了当前数据驱动的机器学习范式,以知识表示和推理来执行超越感知的问题解决。

完整内容请阅读原文

相关文章:

𝛼 ILP: thinking visual scenes as differentiable logic programs

Right for the Right Concept 交互解释符号Learning

相关推荐:

AGI结构模块很细分:脑网络结构高清大图

AGI部分模块的优秀复现:

最新代码:一个epoch打天下:深度Hebbian BP (华为实验室) 生物视觉 +

AGI之 概率溯因推理超越人类水平 VSA符号溯因abductive推理 +

Spaun2 Extending the World's Largest Functional Brain Model 架构 +

自由能AI模型的理论高度和潜力(信息量大)自由能loss +

DeepMind Dreamer 系列为什么效果这么好及自由能理论高度和潜力 世界模型+

世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立 躯体控制 +

代码:Learning to Learn and Forget (华为)长短期记忆网络 +

inductive Logic Programs 视觉推理 +

框架及硬件

生物神经网络的开源芯片 +

矢量符号架构作为纳米级硬件的计算框架 +

Self-Expanding ⾃扩展神经⽹络

benchmark:

NeuroGym- An open for developing and sharing neuroscience tasks

60作者的NeuroBench:通过协作、公平和有代表性的基准测试推进神经形态计算

Towards Data-and Knowledge-Driven AI: A Survey Neuro-Symbolic 图表

系统观:

大脑中复杂适应动力学的神经调节控制

突触神经耦合的混沌动力特性

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档