前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >动作过程中进行反馈校正的控制策略

动作过程中进行反馈校正的控制策略

作者头像
用户1908973
发布2023-10-10 10:22:36
1390
发布2023-10-10 10:22:36
举报
文章被收录于专栏:CreateAMindCreateAMind

通过转换模型学习连续控制策略

抽象。

令人怀疑的是,动物是否有完美的肢体逆模型(例如,要到达空间中的特定位置,每个关节必须进行什么样的肌肉收缩)。然而,在机器人控制中,将手臂的末端执行器移动到目标位置或沿着目标轨迹移动需要精确的正向和反向模型。在这里,我们表明,通过从交互中学习转换(向前)模型,我们可以使用它来驱动分期偿还策略的学习。因此,我们重新考虑了与深度主动推理框架相关的策略优化,并描述了一种模块化神经网络架构,该架构同时从预测误差和随机策略中学习系统动态,该随机策略生成合适的连续控制命令以到达期望的参考位置。我们通过将该模型与线性二次型调节器的基线进行比较来评估该模型,并总结了向类人运动控制迈进的额外步骤。

关键词:连续神经控制策略优化主动推理

1介绍

在受神经科学启发的人工智能体中使用自适应运动控制模型是开发可能与人类能力和灵活性相匹配的机器人的一条有前途的道路,并提供了一种明确实现和测试这些模型及其基础假设的方法。

预测模型在生物制剂的运动规划和控制中的应用已得到广泛研究[12,15]。主动推理(AIF)是一个数学框架,它为这些预测模型的本质提供了具体的解释,并越来越受到神经科学和机器学习研究社区的关注,特别是在嵌入式人工智能领域[13,5]。AIF的核心是一个强大的生成模型的存在,该模型基于相同的自由能最小化原则驱动感知、控制、学习和规划[7]。然而,学习这些生成模型仍然具有挑战性。最近的计算实现利用神经网络的力量(深度主动推理)来解决基于这些原则的各种任务[13]。

虽然深度AIF (dAIF)的大部分技术状态集中在具有离散动作的抽象决策上,但是在机器人控制的环境中,连续动作和状态表示是必不可少的,至少在运动生成层级的最低级别是如此。基于Friston [7]的原始工作,AIF的连续控制实现非常适合于适应外部扰动[21],但是它计算次优轨迹并强制状态估计偏向偏好/目标状态[13]。基于优化预期自由能的新规划算法[18]最终将行动计划从估计中分离出来,但是它们在学习生成模型和偏好(特别是用于生成行动)时遇到了困难。

在本文中,我们从预测控制的角度重新研究了使用神经网络的策略优化,以学习用于到达任务的低级控制器。我们表明,通过学习转换(远期)模型,在互动过程中,我们可以用它来推动分期偿还政策的学习。所提出的方法并不完全新颖,而是结合了先前各种方法的各个方面,用于低级连续控制、主动推理和(深度)强化学习。这是一项早期的概念验证研究,旨在了解预测网络如何能够导致成功的行动策略,特别是对于电机控制和机器人任务。

首先,我们总结重要的相关研究,然后继续描述模块化神经网络架构,该架构同时从预测误差和随机策略中学习系统动态,该随机策略生成合适的连续控制命令以到达期望的参考位置。最后,我们通过在到达任务中将该模型与线性二次型调节器(LQR)的基线进行比较来评估该模型,并以向类人运动控制采取的附加步骤来结束。

2相关著作

这项工作结合系统识别重新审视了连续控制和运动学习,这是一个活跃的研究方向,具有许多理论影响。由于涵盖这一领域的大量文献,理论含义和实现尝试的完整列表超出了本文的范围。相反,我们想突出一些精选的例子,这些例子要么很好地代表了一个研究分支,要么有特别相关的想法。

已经在人类中广泛研究了运动学习和适应(关于最近的综述,请参见[12,15])。人类在简单的触及任务中表现出对干扰的高度适应行为,我们的目标是在人工智能体中复制这些能力。虽然在任务动态已知的情况下,可以通过最优控制实现简单的电机控制[12],但那些既能从经验中学习又能适应变化的系统却很少受到关注[6,2]。然而,假设给出了完整的正、逆模型是不正确的在实践中经常遇到,因此这些必须从经验中学习[26]。受最优控制理论启发,在脉冲神经网络中完成机器人手臂动力学在线学习任务的初步实验显示了有希望的结果[10]。

最近,在机器学习中控制未指定系统的最主要方法可能是深度强化学习(dRL ),其中控制被学习为神经网络中的摊销推理,其寻求最大化累积回报。代理和任务动态的模型是从经验中隐式(无模型)[14]或显式(基于模型)[8,27]学习的。显式生成世界模型的优势在于,它可用于规划[22],与模型预测控制相关,或通过想象生成训练数据[8,27]。然而,学习和更新这样的世界模型可能相对昂贵和缓慢。最近,混合方法得到了发展,将无模型方法的渐近性能与基于模型方法的规划能力结合起来[23]。最后,当内部模型不准确或不可用时,用于快速运动适应的无模型在线学习[2]显示了与人类实验中的行为发现一致的有希望的结果,并且可以解释以前无法解释的关键现象。

利用世界生成模型的思想是AIF的核心组成部分,这是一个通过联合最小化主体的期望自由能(EFE)来统一感知、规划和行动的框架[1,7,13]。事实上,在这里,这种生成模型完全取代了对逆向模型(或RL术语中的策略模型)的需要,因为分层生成模型内的正向模型可以通过预测编码的方式直接逆向。这将行为理解为一个迭代的过程,而不是分期的推理,因此与最优控制理论形成强烈对比,最优控制理论需要正向和反向模型[11]。此外,跨越看不见的状态和动作的探索的概念自然包括在内,因为自由能符号包括惊奇(熵)最小化,这是一个被人为添加到许多现代RL实现中的概念[8,27,14]。此外,AIF包括优于优选状态的全局优先的概念,这比RL代理的奖励寻求更灵活,因为它可以通过奖励以及其他方法如专家模仿来获得。最近,自上而下的预测和自下而上的预测误差单向流动的想法受到了新的混合预测编码的挑战,该编码通过进一步将自下而上(摊销)的推理添加到混合中来扩展这些想法[24],假设了向习得的习惯性行为逆模型的潜在范式转变。

最近的概念验证AIF实现表明,这种框架能够通过预测处理进行自适应控制,例如在机械臂中[19]。实际上,机器学习团体的大多数AIF实现使用神经网络来学习与EFE的最小化相关的概率量的近似值,称为深度主动推理。使用基于梯度下降的学习,这些前向模型可用于直接传播期望状态相对于控制信号(或策略)的梯度[8,27,3,4,9,17]。此类政策的输入通常如下所示,完全可观察的内部变量(与本体感受相关)[25,3,4],直接视觉观察[14],或单一[9,8,27]或混合感觉输入的习得潜在表征[16,21]。然而,这利用了自下而上感知和自上而下控制的摊余推断[25,3,4,9,17],在某种程度上与原始AIF理论的预测性质相反,与深度RL更密切相关。

总之,AIF假设了一种生物上可行的运动控制的有前途的方法[7,1],特别是对于机器人应用[5]。代理人的自由能最小化与其他神经科学理论密切相关,如贝叶斯大脑假设和预测编码。当系统动态已知时,自适应模型很容易实现[20,6]。通过反向传播或误差[8,27,3,4,9,17,23]或替代学习方法[25,24,10],通过神经网络中的经验,可以从各种感知刺激中学习(正向和,如果需要,反向)动态的未知生成模型。这可以扩展到学习关于优选状态和动作的先验知识[8,27,14,23,9,3,4]。然后,生成模型(及其先验)可用于感知、行动、规划[9,22]和想象训练数据的生成[8,27]。

在这部作品中,我们从这些近期作品中汲取灵感。我们正在通过交互从完全可观测的状态学习具有未知动态的低级控制器的生成模型。一个组件学习状态转移,类似于[8,27],该状态转移又被用于为摊销策略网络生成想象的训练数据。假设关于优选状态的先验被给予该低级模型,因此不应用基于奖励的学习。

3模型

我们考虑一个完全可观测但带有未知动态的噪声系统。我们将该系统形式化为离散时间t ^ z中的马尔可夫决策过程(MDP ),系统的状态为连续变量xt Rn的n维向量。同样,我们可以通过连续的动作对系统进行多维控制。我们的目标是学习一种策略,它可以使系统达到期望的目标状态x˜ Rn,这种状态假设是由外部源提供的。如果系统的动态特性是已知的,我们可以应用最优控制理论来找出每个时间点t [0,]的ut。但是系统动态是未知的,必须学习(系统辨识)。系统的动态特性是通过相互作用和由过渡模型υ从预测误差中学习的。此转换模型用于并行训练策略模型π以生成控制动作。两种模型都在图1中进行了简要总结。

3.1过渡模型

系统的动态特性描述如下

Acknowledgements This research was partially funded by the Human Brain Project SGA3.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档