前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器人高效可扩展深度推理

机器人高效可扩展深度推理

作者头像
用户1908973
发布2024-04-11 14:24:14
550
发布2024-04-11 14:24:14
举报
文章被收录于专栏:CreateAMindCreateAMind

Deep kinematic inference affords efficient and scalable control of bodily movements

当前模型的缺点:

不允许在外部坐标中指定目标,因此具有一些实际限制

缺点是外在坐标和内在坐标混合在一起,

无法解决需要复杂运动链(例如生物体)内多个肢体和关节同时协调的自然身体运动,并且无法解决由于障碍物造成的运动限制

介绍了一种新颖的主动推理架构,它解决了上述两个限制并实现了有效且可扩展的电机控制。首先,我们证明将内在坐标映射到外在坐标的生成模型(IE Intrinsic-Extrinsic (or IE) 模型)可以通过推理提供有效的运动学反演。其次,我们证明复制 IE Intrinsic-Extrinsic (or IE) 模型的方案来模拟代理运动链的层次结构可以提供对身体运动的可扩展控制。

ABSTRACT

执行目标导向的运动需要将目标从外部(相对于工作空间)坐标映射到内部(相对于身体)坐标,然后映射到运动信号。基于最优控制的主流方法通过最小化成本函数来实现映射,这对计算要求很高。相反,主动推理使用生成模型来产生感官预测,从而可以更便宜地反转运动信号。然而,设计生成模型来控制像人体这样的复杂运动链是具有挑战性的。我们引入了一种新颖的主动推理架构,该架构通过推理提供了从外部坐标到内部坐标的简单但有效的映射,并且可以轻松扩展以驱动复杂的运动链。丰富的目标可以使用吸引力或排斥力在内在和外在坐标中指定。所提出的模型再现了复杂的身体运动,并为驱动系统的计算效率和生物学合理控制铺平了道路。

1 Introducti

生命系统的大脑如何支持目标导向的运动以实现有目的的行为?标准假设是执行目标导向的行动需要两个反映感知和plant控制过程的映射[1]。首先,有必要通过称为逆运动学的过程,将外部坐标(例如,笛卡尔空间)中指定的目标和期望运动轨迹映射到内部坐标(例如,作为关节角度)中指定的运动inverse kinematics。其次,有必要通过称为逆动力学的过程将内在状态映射为移动身体所有肌肉所需的力inverse dynamics。

这两种反演(运动学和动力学)在计算上具有挑战性。虽然计算给定关节配置的外在表示很容易,因为几何映射(所谓的直接运动学)是明确的,但找到与特定位置相对应的关节角度并不简单。计算使智能体达到该姿势的运动计划更加困难,因为如何实现运动有多种可能性,并且计算复杂性随着运动链的自由度 (DoF) 的增加而增加(例如,单臂与整个身体)。

基于最优控制的主流理论提供了基于成本函数优化的两个逆演的解决方案[ 2,3,4,5,6 ]。然而,实现某些运动(例如手写或行走)很困难,因为并非所有贝叶斯最优轨迹都具有明确定义的成本函数[7]。此外,所需的计算通常要求很高,因为模型反演需要考虑执行动作的影响。由于后者被感知的延迟在感觉模态之间和内部不同 [8, 9],因此需要使用前向模型进行补偿,这可能会引入额外的误差 [10]。

主动推理提供了一种不需要成本函数的替代方案[ 7,11,12,13,14,15 ] 。它建议代理被赋予一个生成模型,指定其隐藏状态的动态(例如,手的位置)随着时间的推移),并且期望的目标被编码为动态的先验(例如,期望的手部位置),其充当吸引状态。通过首先从隐藏状态生成本体感觉预测,然后最小化本体感觉预测误差或预测和当前感觉之间的差异来实现目标导向的运动。至关重要的是,本体感觉预测和肌肉控制信号之间的映射非常简单,并且可以使用脊髓中的反射弧以最小的延迟实现,而不需要复杂的逆动力学计算[13]。事实上,逆模型从本体感觉映射到动作,而不是从隐藏状态(无论是内在坐标还是外在坐标)映射到动作,如最优控制[10]中那样。

请注意,主动推理仅使用反射弧作为控制的最后阶段。复杂的运动模式不是在反射弧的水平上构建的,而是由预测本体感受预测的特定模式的高级动力学生成的[ 16]。这种预测不仅编码位置项,还编码更高的时间顺序[17],允许反射弧实现复杂的瞬时轨迹,其中包括速度和扭矩等[18, 19]。此外,对模型动态和整个层次结构的事先期望允许立即做出初步猜测响应,最终通过后续反馈进行完善[1]。

尽管人们对使用主动推理方法进行生物控制和机器人技术越来越感兴趣[ 20,21,22,23,24,25,26,27,28,29 ],但迄今为止它们在现实环境中的应用受到限制,因为以下两个因素根本问题。

首先,实现提供有效运动学反演的生成模型具有挑战性。最先进的机器人实现跳过运动学反转,仅依靠内在坐标来实现运动[30, 18]。尽管它们很有效,但此类方案不允许在外部坐标中指定目标,因此具有一些实际限制。其他方法直接在隐藏状态的动态中嵌入传统的最优控制反转,例如雅可比转置[31, 10]或伪逆[32] 。这样做的缺点是外在坐标和内在坐标混合在一起,并且一些计算是重复的:外在先验被映射到内在坐标,这反过来又生成外在预测以与感官观察进行比较。因此,外在生成模型也必须嵌入到动力学函数中。

其次,也是至关重要的,上述系统并不对要控制的身体的整个运动链进行建模(即维持概率信念),而仅对末端执行器进行建模。因此,它们无法解决需要复杂运动链(例如生物体)内多个肢体和关节同时协调的自然身体运动,并且无法解决由于障碍物造成的运动限制

在这里,我们介绍了一种新颖的主动推理架构,它解决了上述两个限制并实现了有效且可扩展的电机控制。首先,我们证明将内在坐标映射到外在坐标的生成模型(IE Intrinsic-Extrinsic (or IE) 模型)可以通过推理提供有效的运动学反演。其次,我们证明复制 IE Intrinsic-Extrinsic (or IE) 模型的方案来模拟代理运动链的层次结构可以提供对身体运动的可扩展控制。

2 Results

2.1 Kinematic inversion through an Intrinsic-Extrinsic(IE) model

主动推理可以通过运动学生成模型提供有效的运动控制,该模型连接两层潜在状态,分别编码内在(μi)和外在(μe)坐标(见图 1A)。与最优控制模型和以前的主动推理实现相比,这种“内在‑外在(IE)模型”具有两个吸引人的功能。

首先,运动学反转 或者从外部坐标到内部坐标的映射 通过将生成映射从关节角度反转到笛卡尔位置µe = ge(µi),自然地从推理中出现。这意味着后者不需要在模型的动力学函数中指定[31,10,32 ] 。简而言之,外部吸引子(例如,要到达的点)首先驱动对上面级别上最可能的内部隐藏状态的推断。然后,后者通过产生本体感觉预测和最终运动命令的途径影响运动执行

其次,该方案允许同时指定内在和外在水平上的先验,这是实现具有多个约束的高级运动所需要的(例如,在保持手水平的同时移动手臂)在内在层面指定吸引子对于处理更自然的特定行动,或者当外在目标难以定义时也很有用。例如,抓取动作可以通过指定特定于对象的关节配置的先验来实现(例如,对小物体的精确抓握或对大物体的强力抓握)。

2.2 Extending the IE model to mimic the kinematic chain

上面介绍的 IE 模型提供了有效的控制,但仍然在一步中执行直接运动学;换句话说,它仅预测末端执行器(例如手)的笛卡尔坐标,而不是整个运动链的笛卡尔坐标(例如,身体)。然而,IE 模型可以以直接的方式进行分层扩展,注意复杂结构的直接运动学总是可以分解为一系列相同的变换(旋转和平移),每个变换对应链的每个组件。我们利用这一事实来设计一个分层生成模型,该模型由与运动链元素数量相同的结构相同的块组成,其中最重要的是,每个块都是一个 IE 模型(见图 1B‑C)。

这种分层架构通过在运动链的所有级别上迭代相同的操作来提供直接运动学,并具有生物学上合理的本地消息传递。具体来说,第j层身体片段尖端的笛卡尔位置是由对同一层身体片段的内在信念和对高于j‑ 1 层的身体片段的外在信念生成的。相反,(逆运动学) j层外在信念的推断需要来自j+ 1以下层的所有外在信念的消息。事实上,如图1B 所示,多个手指连接到底层的同一个关节(手腕) 。通过假设j级块的隐藏状态的推断使用低于 j + 1 级的所有块生成的预测误差的平均值,可以轻松处理分支[33]。有关详细信息,请参阅方法。

总的来说,这种生物学上合理的本地消息传递形式与用于感知推理的分层预测编码相同[34, 35]。这里,跨块的自上而下和自下而上的消息分别编码运动学预测和运动学预测误差。

2.3 Defining goals for movement using attractive or repulsive forces

在主动推理中,运动目标可以作为更高级别的先验强加,也可以嵌入到同一级别的动态函数中。后一种方法通常基于吸引子,该吸引子线性地最小化当前状态和期望状态之间的距离。为了生成动态目标,期望的状态还可以通过嵌入运动意图的函数依赖于信念本身的某些组成部分[36, 37] ‑ 参见方法。

此处介绍的深度运动学模型允许在内在和外在级别制定各种类型的目标;例如,关节的期望角度

,期望的绝对位置

,或肢体的期望方向

。此外,可以实现避障目标,如在方法中所示。与吸引力类似,排斥力为运动链的每个块指定,这确保了每个部分(而不仅仅是末端执行器)都远离障碍物。最后,可以同时定义多个目标——例如,在保持手的垂直方向的同时到达特定位置的肘部——通过在不同级别结合多个吸引力和/或排斥力。这使得深度模型具有可扩展性和多功能性,正如我们在下一节中所示。

2.4 Applications of deep kinematic inference

2.4.1 Reaching task

我们展示了深度运动学模型在各种日益复杂的运动任务中的能力。我们从图 2A 所示的简单到达任务开始,该任务包括移动具有现实关节限制的 4R 机械臂(蓝色) ,以到达静态物体(红色)。在这里,我们将深度运动学模型 (deep) 与更简单的 IE 模型 (IE) 以及基于雅可比转置 (transp) 和伪逆 (pinv) 的两个替代控制器的性能进行比较。

图 2B 所示的仿真结果显示了四种模型进行 1000 次试验(其中试验步骤为 500 个)的性能。对于每次试验,模型的信念都是用随机的关节角度和节段位置来初始化的(比从一致的内在‑外在信念开始更具挑战性的场景)。此外,随机目标位置被采样并设置为末端执行器的到达目标。我们使用各种指标(见图 2B 和方法)评估四个模型在感知推理(蓝色条)和可达能力(红色条)方面的性能。

四个模型在感知推理和到达过程中的性能都接近最佳。罕见的失败是模型发现不可能的轨迹,因此无法达到目标配置的试验(请注意,我们没有包括任何关于运动方向的先验)。深度模型的性能相当与其他型号。与 IE 模型相比,性能稍低是因为深度模型需要更多时间跨级别传播消息,导致在时间步长有限时试验失败。雅可比伪逆方法的表现略好于其他模型,但转置方法的最终误差要高得多。然而,在所有情况下,平均最终误差都低于认为试验成功的最小距离。

2.4.2 Learning and adaptation of the kinematic chain

与最先进的实现不同,深度模型包含有关身体部位长度的信念,并且可以根据感官观察随着时间的推移推断它们。这可以使代理快速适应运动链的变化,例如,当使用增加最后一段长度的工具时,或者当新关节添加到特定位置时。为了评估这种能力,我们进行了一项实验,其中关于角度和身体部位的信念都是随机初始化的。我们通过将每个节段的估计位置(根据关节角度置信度计算)和估计长度与相同变量的实际值进行比较,对该任务进行了 1000 多次试验评估。 2C 中所示的模拟结果表明,即使在单次试验中,深度模型除了推断其关节角度(蓝线)之外,还成功推断其身体节段的长度(绿线)。

总之,这些结果表明深度模型的效率并不比以前的实现低,并且与以前的实现不同的是,它还提供自建模。下一个模拟将表明深度模型可以进一步扩展以考虑复杂的运动链。

2.4.3 Deep inference

图 3 显示了使用与图 2 相同的机械臂对深度运动模型进行的评估,但配备了数量不断增加的关节,且所有关节的长度均相等。该模拟通过 1000 次试验进行评估,试验持续 2000 个时间步长。由于我们消除了角度限制,因此推理性能达到最佳,动作性能接近最佳。有些试验失败了,因为将吸引子反向传播到最深层次所需的时间超过了时间限制,从而影响了准确性和平均误差。

2.4.4 More complex control tasks

除了之前的模拟之外,深度模型还可以在各种任务中控制更简单(例如,类似手臂)和更复杂(例如,类似身体)的结构,这些任务需要同时跟踪动态物体(红色),同时避免另一个动态物体(绿色)(图 4A),进行横向移动,同时保持最后一段的垂直方向(图 4B),在笛卡尔空间中执行圆周运动(图 4C),避免与人接触的动态物体类身体(图 4D),同时到达具有类人身体(图 4E)或具有 28 DoF 和多个分支的树状身体的不同肢体的多个目标(图 4F);有关这些和各种其他控制任务的更多信息,请参阅补充材料。

有关特定任务和其他应用程序的更多信息可以在补充材料中找到。至关重要的是,相同的深度模型可以通过简单地指定不同的目标、使用吸引力或排斥力或两者的组合来实现所有这些(和其他)任务,而无需定义临时成本函数。因此,与其他方法相比,深度模型特别容易扩展,以解决具有多个目标的复杂运动结构和控制问题。

3 Discussion

主动推理提出,通过使用耦合的代理环境系统的生成模型生成预测,然后最小化预测和当前感觉之间的误差,来实现目标导向的运动。尽管其理论上具有很强的吸引力[1],但该框架在电机控制和机器人技术中的应用有限,因为指定适当的生成模型来映射不同(外部和内部)运动坐标以及控制复杂的运动结构(例如人体。

在这里,我们表明,对内在和外在坐标保持不同信念的生成(IE)模型可以有效控制目标导向的运动,因为它允许将内在和外在目标定义为吸引(或排斥)状态并通过求解逆运动学(主动)推理,这在最佳控制等其他框架中通常具有挑战性。此外,我们表明 IE 方案的深度层次扩展极大地提高了其可扩展性。特别是,为运动链的每个块复制相同的 IE 生成模型简化了直接运动学的计算,并允许控制需要同时协调多个部分的复杂运动结构。

与主动推理文献中的最优控制方案或最先进的模型相比,所提出的深层分层架构具有四个主要优点。首先,它很高效:通过推理执行运动学反演大大降低了其计算成本。其次,它是可扩展的:只需连接多个 IE 模型即可为复杂的运动链设计生成模型。由于整体生成模型总是模仿整个运动链,因此添加或删除新段(例如,对工具使用进行建模)只需添加或删除相应的块。第三,它通过不断推断运动学来提供自建模[38]在线结构并快速重新适应肢体长度的变化。第四,它提供了一种生物学上合理的推理形式,仅使用本地消息传递和异步计算,类似于用于感知的分层预测编码[34,35,11,39]。

深度运动学模型的行为在各个级别上复制相同的计算块,与深度神经网络有一些相似之处。通常使用后者(例如变分自动编码器)作为主动推理代理的生成模型[30, 36]。尽管它们很有效,但在自由能最小化过程中,深层网络被视为黑匣子:对隐藏状态的信念仅接收单个梯度,并且不知道反向传播算法执行的内部计算。这样做的缺点是,生成模型的权重必须先验地学习,并在整个主动推理过程中保持恒定 因此,代理在收到新的感官观察结果时无法调整它们。此外,代理无法控制生成模型的动态,也无法控制深层网络的中间层走向潜在的首选状态。换句话说,几乎所有的艰苦工作都委托给了深层网络,而主动推理代理的唯一工作就是推断隐藏状态的最高级别。相比之下,预测编码方法的吸引力之一是它们可以同时执行隐藏状态推理和学习[34,35,11,40 ] 。设计一个在各个级别上使用相同的自由能(或预测误差)最小化规则的分层结构意味着代理可以不断修改其内部模型以匹配感官观察和先前的期望。

在本研究中,我们重点关注控制具有多重约束的复杂层次结构的理论方面。因此,我们使用了相对简单的速度控制系统,而不考虑更高的时间顺序。这意味着所示的动力学函数缺乏平滑驱动真实系统所需的一些约束。然而,通过在层次结构的特定级别施加先验,可以轻松地将此类约束包含在此处使用的主动推理方案中。当我们讨论系统如何整合特定功能时,我们在结果部分提供了一个示例,但还可以制作其他有用的示例。给定运动学模型的简单分析形式,我们可以通过扩展广义状态空间并定义增加时间阶数的动力学函数来实现所需平滑度的运动,就像我们为速度控制方案所做的那样。

因此,可以通过维持时间顺序达到第四级的内在信念并在最后一级施加限制来实现加加速度最小化[18]。类似地,可以在第三级定义吸引器,为关节设置特定扭矩并允许模拟高级肢体动力学[19]。此外,可以通过提前预测奇点的影响并将其嵌入内在水平来避免奇点[12]。最后,超越达到和避免任务的高级动作(例如那些需要高级规划的任务)可以通过混合方案来实现,其中离散模型规划最佳的动作序列,而这些动作序列又由连续模型(如本研究中举例说明了这一点[17]。换句话说,混合方案允许智能体在更抽象的层面上对环境进行建模,实现多步到达运动[41]、对象操纵任务以及规划轨迹,以避免人工场势产生的局部最小值。我们计划在未来的工作中模拟混合主动推理的这些功能。

最后,虽然我们举例说明了控制人体运动的深层运动学推理,但相同的设计可以用于控制由多个分支组成的其他可能更复杂的结构。因此,深度运动学推理方法可以为通用驱动系统的高效且生物学上合理的控制铺平道路。

4 Methods

4.1 Hierarchical Active Inference

主动推理的核心是使用生成模型来生成预测,并最大限度地减少由于预测与观察之间的差异而导致的预测误差。生成模型取决于以递增时间顺序(例如,位置、速度、加速度等)的广义坐标编码的三个元素:隐藏状态

、隐藏原因

和感觉信号

这些元素通过非线性系统相关联,该非线性系统指定了感官信号的生成以及潜在状态随时间的演变:

其中D是微分算子,它将所有时间顺序移一,即:

,而

是假设从高斯分布中采样的噪声项。相关联的联合概率被分解为独立分布:

其中每个分布通常由高斯函数近似:

主动推理的简单表述可以处理多项任务,但其主要优势依赖于分层结构,该结构允许大脑学习感官观察及其原因之间固有的分层关系[17]。

通过将每个隐藏原因与另一个生成模型联系起来,可以轻松扩展该结构;因此,先验成为上层的预测,而观察则成为下层的可能性

另一方面,通过最小化 VFE 相对于电机控制信号 a 的本体感受分量来实现动作:

公式细节可以参考:意图、假设、行动、证据 Dynamic inference by model reduction

4.2 Kinematic models: belief updat

在 IE 模型中(如补充图 S1 所示),内在信念对每个关节角度进行并行编码,而外在信念仅对末端执行器的笛卡尔位置进行编码。对于 2R 机械臂,这些信念与以下因素相关:

其中

是执行正向运动学的生成模型,我们使用紧凑的符号来表示角度的正弦和余弦:

内在信念的更新方程是本体感觉似然、外在似然和内在吸引子动力学的组合:

动力学函数 fi 的形式将在以下部分中解释。通过梯度

进行运动学反演:

类似地,外在信念的更新是内在先验、视觉可能性和外在吸引子动力学的组合:

关于深度运动学模型,如果我们考虑一个简单的 2D 手臂,每个块都由对成对的关节角度和节段长度

的内在信念和外在信念组成 对线段末端位置及其绝对方向的置信度

。由此产生的运动学生成模型为:

内在信念的更新等价于IE模型:

然而,运动生成模型相对于内在信念的梯度更简单,因为它仅取决于该级别的内在组成部分:

请注意,方程 18 中的第二行梯度允许推断和学习段长度。

外在信念的更新仍然包括 IE 模型的每个组成部分,但添加了来自下一层

的外在似然,在本例中是它所附加到的所有段的总和:

这个新术语的梯度连接了层次结构中的每一层,因为内在信念通过以下方式与其外在预测进行交流:

4.3 Ramifications

4.4 Defining attractive goals and repulsive forces

目标可以通过意图函数 i(µ) 在内在和外在层面上灵活地制定,该函数将当前信念与偏差 h* 线性结合,以定义期望的未来状态 µ*:

简而言之,矩阵 H 执行当前信念的转换:仅操纵和组合特定组件提供动态行为(例如,达到移动目标),而对其他组件使用恒等变换,使它们可以自由更改,因为它们的预测 误差为零。相反,向量 h* 用于施加静态配置。

4.5 Assessment Metrics

用于评估感知推断的三个度量标准是:(i) 感知准确度:在8个像素内成功找到与真实目标位置对应的关节配置;(ii) 感知误差:试验结束时真实和估计的目标位置之间的

距离;(iii) 感知时间:成功估计目标位置所需的时间步数。

用于评估到达的三个度量标准是:(iv) 到达准确度:在8个像素内成功接近目标;(v) 到达误差:试验结束时末端执行器与目标之间的

距离;(vi) 到达时间:在成功试验中末端执行器到达目标所需的时间步数。请注意,到达任务比推断任务更具挑战性,因为它需要根据仅有最后一段位置的信息推断最终的手臂配置。

对比:

模型实现:灵活意图驱动目标导向行为 里面的指标:

动作表现通过以下几个指标进行评估:(i) 达到准确度:成功接近目标中心 10 像素以内,即手触摸目标;(ii)到达误差:试验结束时的L2手-目标距离(iii) 到达稳定性:在成功的试验中,从到达目标到试验结束期间 L2 手与目标距离的标准偏差;(iv) 到达时间:在成功的试验中到达目标所需的时间步数。我们还通过基于目标位置与其估计之间的 L 2 距离的模拟测量来评估目标感知,通过应用几何(前向)模型将关节角度转换为视觉位置。具体来说,我们定义了以下衡量标准:(v)感知精度:成功估计10个像素内的目标位置(vi) 感知误差:试验结束时真实目标位置与估计目标位置之间的距离 L 2 ;(vii)感知稳定性:从成功估计到试验结束期间目标位置与其估计之间的L 2 距离的标准偏差;(viii) 感知时间:成功估计目标位置所需的时间步数。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档