前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >彻底解决AI视觉深度估计

彻底解决AI视觉深度估计

作者头像
用户1908973
发布2024-04-11 14:31:05
910
发布2024-04-11 14:31:05
举报
文章被收录于专栏:CreateAMindCreateAMind

Abstract:

深度估计是一个不适定问题;不同形状或尺寸的物体,即使在不同距离上,也可能投影到视网膜上的同一图像上。我们的大脑使用多种线索来进行深度估计,包括单眼线索,如运动视差,以及双眼线索,如重影。然而,深度估计所需的计算如何以生物学合理的方式实现尚不清楚。基于深度神经网络的最新方法隐式地将大脑描述为分层特征检测器。相反,在本文中,我们提出了一种将深度估计视为主动推理问题的替代方法。我们展示了深度可以通过反转一个同时从二维对象信念预测眼睛投影的分层生成模型来推断。模型反演包括一系列基于预测编码原理的生物学合理的均匀变换。在非均匀视点分辨率的合理假设下,深度估计有利于采用主动视觉策略,通过眼睛对准对象,使深度信念更准确。这种策略不是通过首先将注意力集中在目标上然后估计深度来实现的;相反,它通过行动-感知循环结合了这两个过程,其机制类似于在物体识别过程中的快速眼球运动。所提出的方法仅需要局部的(自上而下和自下而上的)消息传递,可以在生物学上合理的神经回路中实现

关键词:主动推理;深度知觉;主动视力;预测编码;行动‑感知循环

1. Introduction

深度估计是一个复杂的过程,涉及视觉皮层各个级别甚至更高级别区域的持续激活。不同种类的视差敏感细胞可以在视觉皮层的早期发现[1,2],并且所产生的信号似乎出于不同的目的通过背侧和腹侧通路传播;顶叶区域(特别是前顶叶和侧顶叶内区域)对手和眼运动中视觉引导动作的深度估计做出了重大贡献[3,4],⽽颞下皮层则⽀持基于相对差异创建 3D 形状对象之间[2,5]。大脑可以依靠多种线索来估计物体的深度,其中最重要的是(i)双眼视差,它允许视觉皮层访问同一环境的两个不同视角; (ii) 运动视差效应,当远处的物体比附近的物体移动得慢时就会发生这种效应; (iii) 注视同一物体时眼睛之间的角度差异(聚散度)

传统上,视觉皮层被认为是一个特征检测器:随着感觉信号在层次结构中上升,越来越复杂的特征被不断检测到,从而通过线条和轮廓构建对象的高层表示。这一观点启发了卷积神经网络的发展,在物体识别任务中取得了显著的成果。尽管取得了成功,但这种自下而上的方法无法捕捉到影响我们对外部世界日常感知的几种自上而下的机制,例如视觉错觉。近年来,基于预测编码理论的不同视角已经出现,将这些错觉不仅视为意外现象,而是将其视为我们的大脑能够有效预测和行动的主要机制的表现。在这种观点下,我们感知到的偏见实际上是更好地减少感觉和预测之间误差的线索。此外,视觉越来越被认为是一个主动过程,不断试图减少接下来会发生的事情的不确定性。

在本文中,我们将这种对感知的预测性和推理性视角应用到深度估计中。具体而言,我们提出了一种主动推理模型,该模型能够基于两个投影图像估计物体的深度,通过预测误差最小化和主动眼动行为的过程。在我们的模型中,深度估计不是由一个自下而上的过程组成,该过程检测两只眼睛的图像中的差异;而是通过从对象的高层表示中进行自上而下的投影预测的推理。换句话说,对物体深度的估计自然地通过反转一个视觉生成模型得到,在该模型中,产生的预测误差向上流动到皮层层次结构中,这与神经网络中发生的直接过程形成对比。

2. Materials and Methods

主动推理理论假设一个代理人具有一个生成模型,该模型对感官观察进行预测,如图1所示。预测与观察之间的差异产生了预测误差,为了处理动态环境并预测接下来会发生什么,这种预测误差被最小化。这个生成模型依赖于三个组件,这些组件通过增加的时间顺序的广义坐标(例如位置、速度、加速度等)进行编码:隐藏状态

,隐藏原因

和感官信号

。这些组件通过一个非线性系统来表达,该系统定义了概率分布。

在这种情况下,D 表示将所有时间顺序移动 1 的微分算子,例如

。此外,

表示从高斯分布得出的噪声项. 所考虑的联合概率分为不同的分布:

通常,每个分布都用高斯函数来近似:

其中 n 是先验,而分布以精度(或逆方差)

表示。

按照变分推理方法 [14],这些分布是通过近似后验q( ˜ x) and q( ˜ v). 推断的。在适当的假设下,最小化变分自由能 (VFE) F,定义为真实后验和近似后验的KL 散度与对数证据之间的差异

导致预测误差最小化。信念更新

关于隐藏状态和隐藏原因分别扩展如下:

其中,

表示感觉信号、动力学和先验的预测误差。

一个简单的主动推理方案可以处理各种任务,但该理论的有效性源于分层结构,该结构使大脑能够掌握感官观察及其原因之间的分层关联[15]。具体来说,可以通过将每个隐藏原因与另一个生成模型联系起来来扩展上述模型;结果,先验成为上层的预测,而观察则成为下层的可能性。

相反,动作的执行是通过最小化与电机控制信号相关的 VFE 本体感受分量来完成的:

其中

代表关于运动控制信号的本体感觉观察的偏导数,

是本体感觉生成模型的精度,

是广义本体感觉预测误差:

总之,在主动推理中,通过首先通过特定原因将信念偏向隐藏状态,通常可以实现目标导向的行为。这个原因充当先验,编码了主体对世界事态的信念。在这种情况下,行动随之⽽来,因为隐藏状态会产生本体感觉预测误差,该误差通过反射弧被抑制[16]。例如,假设代理必须将手臂旋转几度,则对手臂角度的信念会受到两个相反的力的影响

一种来自上方(将其拉向预期),一种来自下方(将其拉向当前感知)。两种力量之间的权衡用精度

来表示,它们编码了代理对特定预测误差的置信水平。通过适当调整精度参数,可以将信念平滑地推向期望的状态,最终通过方程(8)驱动真实的手臂

3. Results

3.1. Homogeneous Transformations as Hierarchical Active Inference

经典预测编码模型是被动的,因为模型无法选择其视觉刺激【8】。另一方面,我们的主动推理模型可以主动控制“眼睛”,以便对那些首选刺激进行采样,从⽽减少预测误差。

主动推理中动眼行为的最先进实现依赖于眼睛角度上的潜在状态(或信念),并且吸引子通常直接在极域中定义[17,18]。虽然这些模型对于模拟扫视和平滑追踪眼球运动具有有趣的意义,但没有考虑眼睛从两个不同角度注视目标的事实。在到达模型中也存在类似的限制,其中要到达的物体的 3D 位置直接作为视觉观察提供[19,20]。此外,由于极坐标中只指定了一个水平,如果想要注视或到达笛卡尔坐标中定义的目标,则必须在该水平上定义相对复杂的动力学函数。

使用基于主动推理的分层运动学模型,包括内在(例如,关节角度和肢体长度)和外在(例如,笛卡尔位置)坐标,可以有效控制模拟身体[21]。电机装置的外在配置是分层计算的,如图2所示。对于[21]中针对的相对简单的运动控制任务,这些计算只需要参考系之间的两个简单变换,即平移和旋转。然⽽,分层运动学模型可以轻松扩展到需要不同变换的更复杂的任务。

在机器人技术中,参考系之间的变换通常通过线性变换矩阵的乘法来实现。这些操作可以分解为更简单的步骤,其中通过链式法则一次将齐次坐标相乘,从而实现更高效的计算。具体来说,如果 x 轴和 y 轴表示笛卡尔平面,则齐次表示会使用称为射影空间的附加维度来增强后者。在这个新系统中,将点坐标乘以相同的因子可确保映射保持不变,即

仿射变换保留平行线,并采用以下形式:

其中最后一行确保每个点始终映射到同一平面。根据链式法则,平面

上的点可以通过乘以相应的变换来旋转和平移:

其中

是旋转 θ 的正弦和余弦,

是平移的坐标。

通过适当改变矩阵的值,附加仿射变换可以得到诸如剪切或缩放的效果。关键的是,如果修改最后一行,则可以实现透视投影:

这样新点就不再映射到同一平面

上。因此,为了将其映射回笛卡尔平面,我们可以将 x 和 y 坐标除以最后一个元素:

这种特殊的变换对于计算机视觉至关重要,因为它允许将点投影到图像平面上或估计物体的深度。如果我们有一个用齐次坐标表示的 3D 点

,我们可以通过首先执行类似于等式(12)的旋转平移来获得投影在相机平面上的相应 2D 点 p 编码相机位置和方向的矩阵(即外部参数):

然后通过所谓的相机矩阵缩放并将点转换为 2D:

然后通过将深度坐标 z 乘以焦距

来执行投影,焦距 f 表示图像平面距原点的距离。和之前一样,因为齐次表示取决于比例因子,为了将

变换到笛卡尔空间,我们可以将相机坐标除以深度坐标

,如图 3 所示,

记住上述内容,我们可以通过假设每个级别依次应用一系列齐次变换来概括[21]的深度运动学模型。具体来说,第一个信念称为

,包含有关特定变换的信息(例如,旋转哪个角度或平移点的长度)。

然后,这种信念会产生相对于该程度的齐次变换自由 (DoF),乘以特定参考中表达的第二个信念框架,如图 4 所示。

Figure 4. 具有齐次变换的广义模型的层次关系的表示。对级别 i 的参考系 µr 的置信度被传递给函数 gt,该函数 gt 编码齐次变换以及对特定变换 µt 的置信度(例如,旋转角度或平移长度),生成级别 i + 的参考系 1.

上述方程通过生成的预测进行简单的梯度计算误差

,迭代更新两个信念所需:

其中

是逐元素乘积

3.2. A Hierarchical Generative Model for Binocular Depth Estimation

在本节中,我们将解释如何通过使用分层生成模型反转两只眼睛的投影预测来产生深度估计。为简单起见,我们考虑一个与 2D 世界交互的代理,其中深度是 x 坐标。尽管如此,相同的方法可用于估计 3D 对象的深度。我们从关于以齐次坐标编码的对象的绝对 2D 位置的置信

开始分层构建生成模型,其中

是深度置信。然后,两个并行路径生成镜面预测 p(1),该预测接收以共同的聚散调节信念

编码的眼睛角度,并将对象的绝对坐标转换为相对于眼睛的两个参考系:

其中

是对应于相机外参的齐次变换:

其中

是眼睛与原点(即眼睛中间)之间的距离,绝对眼睛角度如下所示。

这些信念中的每一个都会生成对投影到相应相机平面的点的预测。

图 5 提供了该模型的神经级说明,其中两个分支源自顶部的两个信念。请注意,虽然眼睛角度信念

为两只眼睛生成单独的预测,但本体感受预测直接对聚散调节系统中的角度进行编码,该系统用于动作执行 [10]。

绝对点置信度(以广义坐标编码直至第二级)更新如下:

其中

是以下信念的精度和预测误差,

是同一信念的动态的函数、精度和预测误差。因此,这种信念会受到不同的预测误差的影响

来自两只眼睛;该点的深度是通过对这两条路径进行平均来估计的。此外,如果希望控制以绝对坐标编码的对象,例如用于到达或抓取任务,则可以在动态函数

中定义吸引子。类似地,μѳ的置信度更新方程如下:

其中

是本体感觉精度、预测误差、观测值和似然函数(在以下模拟中是恒等映射),而

是函数、精度和信念动态的预测误差。

这种信念除了受到本体感受贡献的影响之外,还与绝对信念一样受到相同的预测误差

的影响。这样,可以通过两种不同的途径最小化总体自由能:(i)通过改变对物体绝对位置(包括深度)的信念,或(ii)通过修改眼睛的固定角度。如下一节所示,使用这些路径的可能性可能会在目标导向的运动过程中产生稳定性问题。

在这种情况下,可以在动态函数

中指定吸引子,以便明确控制眼睛的动态,例如,通过不固定在相机平面上的点上,而是沿着特定方向旋转眼睛或通过特定的角度。

最后,对于投影点

的信念更新方程如下:

其中

是以下置信度的精度和预测误差,

是视觉精度、预测误差、观测值和似然函数,

是置信动态的函数、精度和预测误差。请注意,在以下模拟中,我们通过简单的恒等映射来近似 gv,

这意味着它传达了笛卡尔位置。

与对眼睛角度

的置信度不同,该置信度仅受以下级别的可能性的影响,该置信度受到来自 (i) 的 e 中编码的先验的影响。(i) 和视觉可能性(1)3

与对眼睛角度 µθ 的置信度不同,该置信度仅受到以下级别的可能性的偏差,该置信度同时受到

中编码的先验和来自

的视觉可能性的影响。

3.3. Active Vision and Target Fixation with Action–Perception Cycles

这里先进的模型不仅能够推断一个点的深度,还可以使用主动视觉来固定它。这可以通过在最后一个信念

的动力学函数中指定适当的吸引子来实现,或者换句话说,通过在双眼中设置“意图”[22],使得投影位置位于 相机中间。

简而言之,

返回一个速度,编码当前置信度与相机平面中心之间的差值

(以齐次坐标表示)乘以吸引子增益 λ。因此,智能体认为投影点将以与

成比例的速度被拉向中心。生成的预测误差然后通过层次结构返回,影响绝对角度和视角信念。因为在这种情况下我们想要的是修改后一个路径(直接生成运动的本体感觉预测),所以前一个路径可能有问题。事实上,如果 µa 已经对物体的正确深度进行了编码,那么注视就会发生得非常快;然而,如果情况并非如此,则预测误差

可以自由地流经所有开放路径,从而驱动不同方向的信念并导致自由能最小化过程陷入错误的深度坐标,并且 眼睛角度[23]。

通过将任务分解为行动和感知的循环阶段可以避免这种异常行为[24]。在动作阶段,绝对信念保持固定,这意味着相对预测误差

只能流向眼睛角度上的信念,这导致眼睛根据深度信念移动。在感知阶段,动作被阻止(通过将吸引子增益或本体感觉精度设置为零),而

可以在任何方向自由流动;其结果是将深度信念推向通过感官观察发出的正确值。这样,通过多个动作和感知循环来实现深度估计,直到总体自由能最小化

图 6 显示了深度估计任务的时间帧序列,其中深度估计的(感知)过程和目标固定的(主动)过程每 100 个时间步在不同阶段循环交替。从点投影的可视化中可以看出,实际目标位置和估计目标位置之间的距离缓慢减小,同时两个位置都接近相机平面的中心,从而提供有效的深度估计。

Figure 6.同时目标固定的深度估计任务的时间帧序列。这代理使用交替的动作-感知阶段来避免在最小化过程中陷入困境。每帧由三幅图像组成:整个任务的第三视角透视图(顶部)和第一视角透视图,其中第一视角透视图由目标到每只眼睛各自相机平面的投影组成(左下和右下)。在顶部面板中,眼睛由蓝色圆圈表示,真实和估计的目标位置以红色和橙色显示。注视轨迹(当发生聚散时)以青色表示。蓝色细线是眼睛的注视角度。在底部面板中,真实和估计的目标位置以红色和橙色显示。横坐标和纵坐标分别表示目标深度及其投影。

3.4. Model Comparison

我们在深度估计任务中测试了第 3.2 节和第 3.3 节中介绍的模型,该任务包括推断图 6 中所示对象的 2D 位置。我们比较了该模型的三个不同版本。在第一个版本中,眼睛保持在固定位置,眼睛彼此平行(推断平行)。在第二个和第三个版本中,虽然模型可以主动控制眼睛角度,但初始值设置在正确的目标位置(推断聚散度)或随机位置(主动视觉,如图 6 所示)。

此外,模拟“眼睛”的中央凹可以具有均匀或不均匀的分辨率;在后一种情况下,当物体靠近注视点时,物体的表现会更准确。这反映了这样一个事实,即生物中央凹中心的受体远多于周边视觉的受体,而周边视觉之前是用指数关联建模的[25]。具体来说,在我们的实现中(即在生成过程中)视觉观察中高斯误差的变异性 Σv 随着注视点与真实目标位置之间的距离 d 呈指数增长:

其中 k 是缩放因子,在我们的模拟中等于 1.5。在均匀条件下,视觉噪声设置为零。

图 7 显示了模拟结果,包括准确性(智能体成功预测目标 2D 位置的试验次数,左图)、平均误差(每次训练结束时真实目标位置与估计目标位置之间的距离) 试验,中图)和估计时间(正确估计目标所需的步骤数,右图)。每个阶段的时间步数设置为 100,与之前一样。图中显示,在非均匀条件下使用平行眼(推断平行)进行深度估计会导致精度非常低,尤其是当目标位置远离注视点时 。这是可以预料的,因为在这种情况下,中央凹的外围分辨率较低。如果将眼睛的角度设置为注视目标(推断聚散度),则精度会高得多并且很少发生波动。最后,同时实现深度估计和目标固定的主动视觉模型所达到的性能水平几乎与在正确位置初始化固定的模型相当。事实上,后两个条件之间唯一明显的区别是主动视觉条件下的时间步数稍多。

这种结果模式表明了三个主要内容。首先,分层主动推理模型能够解决深度估计问题,从其在任务中完美的准确性就可以看出这一点。其次,该模型能够推断深度,同时选择对其首选刺激进行采样的最佳方式,即通过注视目标。这是可能的,因为在试验期间(如图 6 所示),随着注视点接近目标,主动视觉模型会获得越来越准确的深度估计。请注意,这种结果模式的出现是因为中央凹的分辨率不均匀。事实上,如果假设中心凹分辨率是均匀的(例如在人工代理的相机模型中),则通过保持眼睛平行可以实现最佳精度(图 7,推断平行条件)。在这种情况下,注视目标无助于深度估计,实际上会阻碍和减慢深度估计,这可能是由于智能体需要付出更多的努力来推断眼睛旋转时的参考系。在不同的方向。这会进一步增加主动视觉模型估计深度所需的时间。

Figure 7.仿真结果。在眼睛平行和固定的推理(推理平行)、眼睛注视目标的推理(推理聚散)以及同时推理和目标固定期间,以非均匀(顶部)和均匀(底部)中央凹分辨率执行深度估计任务 (主动视力)。准确度(左图)衡量智能体成功预测目标 2D 位置的试验次数,平均误差(中图)衡量每次试验结束时真实目标位置与估计目标位置之间的距离, 时间(右图)衡量正确估计目标所需的步骤数。

直觉上,均匀条件下更好的性能是由于缺乏噪声在视觉输入中。虽然在这种情况下更现实的场景会考虑噪声,但由于均匀分布,可以合理地假设它的幅度要小得多。仅考虑非均匀感觉分布,相对于主动视觉,推断聚散条件下的性能更好 可能是因为在前一种情况下,智能体从固定在正确的 3D 位置的状态开始推理过程。因此,推理聚散条件下的主动视觉策略只需要估计物体的深度。在比较这两种场景时,可以注意到,主动视觉的表现几乎是最佳的,类似于当眼睛角度设置为正确的目标固定值时的推断聚散条件。但是,后一种情况很少出现在现实环境中,并且 更有意义的深度估计比较是在主动视觉和更一般的情况之间进行的,在这种情况下,代理正在固定另一个物体或不固定在任何特定的物体上,我们用推断并行模拟来近似。

4. Discussion

我们提出了一种分层主动推理模型,用于在投影相机平面的状态空间中进行深度估计和目标固定操作。我们的结果表明,深度估计可以通过推理来解决,即通过反转分层生成模型,该模型根据物体上的 2D 信念来预测眼睛的投影。此外,我们的结果表明,主动视觉动力学使推理特别有效 并且固定目标极大地提高了任务准确性(见图 7)。至关重要的是,所提出的模型可以在生物学上合理的神经回路中实现预测编码 [8-10],只需要本地(自上而下和自下而上) 消息传递。从技术角度来看,我们的模型表明,通过组合不同级别的生成模型,可以在任何齐次变换中迭代地实现推理,每个模型计算一个特定的变换,例如,运动学推理的旋转翻译[21] ] 或计算机视觉的投影。

与之前的方法相比,该提案有几个新颖之处深度估计。首先,通过关注推理和局部消息传递,我们的建议背离了从纯粹自下而上的角度看待皮质处理的趋势。后者在神经网络方法中很常见,它从对象的图像开始,逐渐检测更多 以及更复杂的特征,最终估计其深度。此外,我们的建议不同于从自上而下的角度生成对象深度的直接方法,例如使用聚散线索。长期以来,聚散度的作用一直被认为是促进双目融合 [5] 和最大化单一环境表示中的编码效率的关键 [26];然而,最近的研究极大地降低了这种机制在深度估计中的重要性。对于这项任务来说,双目融合可能并不是严格必要的 [27],因为深度估计的 90% 性能归因于复视 [28],并且在不消除所有可能的混杂因素的情况下,它实际上从未作为绝对距离线索进行过测试 [28]。此外,当注视目标时,单目图像中总是存在垂直注视的视差,没有直线精确相交形成聚散角[29];已经证明,聚散度并不对应于被注视物体的确切距离[30]。根据这些证据,聚散度信念在我们的模型中的深度估计中并不起关键作用,仅与对对象的 2D 位置的高级信念一起操作,以预测两只眼睛的投影 。将这些投影与视觉观察结果进行比较,由此产生的预测误差通过层次结构回流,然后驱动两个信念(即关于眼睛角度和二维物体位置)的更新。这种变化以两种可能的方式发生:(i)物体的估计深度或(ii)眼睛的聚散调节角度,最终实现特定的运动。总之,深度估计并不是纯粹的自上而下的过程;而是一个简单的过程。相反,它是通过生成投影模型的反演并对通过眼睛的两个平行路径获得的信息进行平均来实现的。总之,我们的模型支持深度估计的直接(从视差到聚散度和深度)而不是间接(从视差到聚散度然后到深度)假设[27]。这种解释符合以下事实:聚散度的微小变化(delta theta)是深度估计的结果,而不是深度估计的直接暗示[28],并且反射式聚散机制仅用于消除小的聚散度 错误,不主动将目光转移到新的深度平面[31]。

这种架构的一个有趣的结果是,与标准神经网络相比,它允许在深度信念上施加先验,以驱动和加速推理过程。这些先验可能来自不同的感觉方式或其他视觉线索,例如运动视差或透视,我们在这里没有考虑到。这与仅靠聚散度无法预测具有模糊线索的深度的发现是一致的[5],这表明深度信念不断受到自上而下的机制和更高层次的线索的影响,而不仅仅是直接从感知中产生。除了深度先验之外,使用主动推理模型的优点是,如果一个人希望注视一个目标,则可以在眼睛角度信念或最后的投影水平上定义简单吸引子,每个吸引子都在自己的域中。例如,要求代理应该感知物体在相机平面中心的投影会导致产生预测误差,最终将眼睛移向该物体,强调主动感知策略对增强推理的重要性[32 ,33]。

然而,投影的预测误差可以通过两个开放路径(即视角和绝对置信度)流动的事实在某些情况下可能会出现问题,例如在同时进行深度估计和目标固定期间。人们很自然地认为深度估计遵循目标固定。事实上,通常不需要自上而下的处理来接近目标;当图像呈现给相机时,后者可能会直接移动到这个投影空间中,从而实现更简单的控制[34,35]。

然后,可以直接根据聚散度线索计算深度。然而,我们的模型假设眼睛角度首先使用估计的深度在 2D 空间中执行旋转平移来生成投影,从而允许更有效的推理的进一步机制。

在这个假设下,通过一个自上而下的过程,在投影空间中的目标固定是可能的,这个过程不断受到高层信念的偏差。尽管如此,直接聚散控制(此处未考虑)可以通过 2D 或投影点的置信度与角度置信度之间的附加连接来实现。考虑到这些因素,深度估计和目标固定这两个过程可能并行运行似乎是合理的。然而,在这种情况下,投影的预测误差会独立地驱动两个高级信念朝自由能最小化的方向发展,导致智能体陷入物体深度和视角不正确的中间配置。我们在这里追求的解决这个问题的一种方法是将任务分解为行动和感知的循环阶段[23,24]。在行动阶段,2D 信念是固定的,智能体可以关注预测的投影,而在感知阶段,智能体可以推断物体的 2D 位置,但不允许移动其视线。这意味着投影的预测误差一次一步交替地沿不同方向(2D 位置和视角)流动,这会导致 (i) 对象被拉向相机平面的中心,以及 (ii) 估计的 2D 位置向正确位置收敛,如图 6 所示。在主动推理的离散时间模型中研究了动作-感知周期;例如,眼跳和视觉采样的循环允许代理减少环境的不确定性,例如,通过在不同点之间快速振荡来识别对象[36,37]。在这里,我们展示了动作-感知循环在连续时间模型中非常有用,例如这里使用的模型,以确保自由能的有效最小化,以及当代理需要用末端执行器到达物体时进行推断 它的四肢的长度[23]。综上所述,识别面部和估计物体深度的两个过程都可以被视为在不同时间尺度主动积累感官证据的过程。从以大脑为中心的角度来看,动作-感知周期通常与海马θ节律相关。和皮质振荡,这可能表明将连续体验分割为离散元素[24,38]。从更技术的角度来看,我们为动作感知周期提出的循环方案,其中包括在以下情况下保持优化目标的一个方面固定:更新另一个,常用于各种优化算法,例如期望最大化[39];类似的方法用于预测编码网络中的学习和推理[40,41]。

我们的结果表明主动视觉可以改善深度估计。然而,如果聚散度不能提供有用的深度提示,那么这怎么可能呢?答案在于中央凹的分辨率不均匀,其注视中心的感受器远多于周边视觉的感受器。据认为,这种非线性分辨率允许感知处理资源聚集在最相关的信息源周围[42]。

在此假设下,当双眼固定在物体上时,可以获得最佳性能,如图 7 所示。如[43]中所述,当立体相机具有非对称的聚散角时,当投影为 一个点落在相机平面的中心。因此,聚散度可以有效地在深度估计中发挥关键作用,同时提供环境的统一表示。这可以通过考虑在非均匀分辨率条件下推断聚散模型和主动视觉模型比推断并行模型更准确来理解。在统一分辨率的情况下,当眼睛聚焦到目标时,误差较大,因为中心像素的焦角大于外围像素的焦角[43]。除了增加的误差之外,由于聚散而对不同参考帧的推断似乎进一步减慢了估计速度。总而言之,结果是在统一分辨率场景中,通过固定平行眼睛实现最佳估计(见图 7),而主动视觉不会给任务带来任何优势。由于在均匀条件下保持平行眼睛会产生稍高的精度,因此此类模拟可能有助于理解接近目标会提高模型性能的情况。这可能有助于仿生机器人的未来研究,特别是在扩展所提出的模型以实现高级机制时,例如通过整合来自不同感官模式或统一视觉的注意力机制的线索而产生的更高级别的先验。感觉变成单一的体验。

本研究中提出的模型有许多可以解决的局限性在以后的学习中。值得注意的是,我们在所有模拟过程中都使用固定焦距 f。在更现实的设置中,焦距可以被视为智能体的另一个自由度,并且可以通过抑制本体感觉预测误差来改变焦距,以加快对不同距离的物体的推理过程。此外,虽然所提出的模拟仅估计 2D 点的深度,但它有可能扩展到处理 3D 对象并考虑垂直双眼视差 [44]。这将涉及用新维度增强所有潜在状态,并在预测眼睛投影之前执行一系列两次旋转作为中间级别。然后,聚散调节信念将通过新的 DoF 进行扩展,从而允许代理注视 3D 对象。此外,未来的研究可能会调查等式(28)中非均匀分辨率的缩放因子以及更现实的非均匀变换如何影响性能并帮助建模人类数据(例如,[25])。在两个视网膜之一上采用偏心中央凹并分析代理的行为,然后将两个中央凹带到目标上。最后,未来研究的另一个有趣方向是将这里提出的架构与更复杂的主动推理运动学模型相结合[21],例如体现具有多个自由度的人形机器人[45-49]。与直接为代理提供 3D 环境作为视觉观察 [20] 或从变分自动编码器重建的潜在空间 [50] 的最先进模型相比,这将允许代理的 3D 位置 通过眼睛的投射来推断物体,然后用于后续任务,例如伸手和抓握。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档