前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过观察随时反馈调整规划

通过观察随时反馈调整规划

作者头像
用户1908973
发布2022-11-22 17:17:48
2890
发布2022-11-22 17:17:48
举报
文章被收录于专栏:CreateAMindCreateAMind

paper:Deriving time-averaged active inference from control principles

假设固定的动作空间和前馈规划,这可能导致非常高维的递归优化问题。这些假设在经验上和计算上都是有问题的。有机体并不是生来就知道[9];他们学习[40]. 噪音[13,32], 不确定[23], 和可变性[47] 在运动控制方面不够完善,因此必须通过在线反馈来稳定运动控制。

随机最优反馈控制需要一个最优性原则,允许在行动步骤之间整合观察。而不是递归优化单独的动作,通过观察随时反馈调整规划序列。

尽管优化了“全局”(不确定)惊奇率(等式),它只需要在情境中规划和调整行为。

Abstract.

Active inference offers a principled account of behavior as minimizing average sensory surprise over time. Applications of active inference to control problems have heretofore tended to focus on finitehorizon or discounted-surprise problems, despite deriving from the infinitehorizon, average-surprise imperative of the free-energy principle. Here we derive an infinite-horizon, average-surprise formulation of active inference from optimal control principles. Our formulation returns to the roots of active inference in neuroanatomy and neurophysiology, formally reconnecting active inference to optimal feedback control. Our formulation provides a unified objective functional for sensorimotor control and allows for reference states to vary over time.

Keywords: Hierarchical control · path-integral control · Infinite-time average-cost.

(摘要:主动推理为行为提供了一个原则性的解释,即随着时间的推移, 最小化平均感官惊讶。迄今为止,主动推理在控制问题上的应用倾向于集中在有限范围或折扣惊奇问题上,尽管它是从自由能原理的无限范围、平均惊奇命令中推导出来的。在这里,我们从最优控制原理中导出了一个无限时域的、平均意外的主动干扰公式。我们的公式返回到神经解剖学和神经生理学中的主动推理的根源,正式地将主动推理重新连接到最优反馈控制。我们的公式为感觉运动控制提供了统一的目标函数, 并允许参考状态随时间变化)

1 介绍

适应性动作需要神经系统中感觉和运动信号的整合和密切协调。主动推理[17] 提供了少数可用的感觉运动控制统一理论之一;它说神经系统将感觉和运动信号编码为传入预测和不同的预测错误。感官预测引起的误差只能通过更新预测来消除, 而运动预测引起的误差可以通过简单地移动身体以符合预测的轨迹来消除[1].遵 循积极推理逻辑的自由能原理认为,组织通过避免内部和外部环境之间令人惊讶的相互作用 , 随 着 时 间 的 推 移 , 维 持 其 作 为 一 个 整 体 的 自 组 织[16]. 这需要将身体状态维持在体内平衡范围内[41] 通过发布感官、前感受性和内感受性预测,在“优先选择”下最大限度地减少错误[11]或“非平衡稳态”[19] 密度。

许多最近的主动推理公式使用具有固定“优先选择”的状态空间模型,对应于稳态设定点或范围[11].他们还通常采用有限的时间范围或预期自由能的指数折扣,不像主动推理的原始公式那样随时间平均惊奇。控制理论家将这些称为参考状态,而不是参考轨迹。

本文将主动推理重新定义为无限时间范围内路径熵的最小化。这篇论文的公式将来自无限范围平均成本最优控制的基本原理;将允许偏好根据它们自己的生成模型而变化,and will unify motor active inference [1] (mAI) with decision active inference [52] (dAI). This will also unify the computational principles behind motor active inference - the “equilibrium point” [14,29] or “reference configuration” [15] hypotheses - with the higher-level study of sensorimotor behavior as optimal feedback control. Finally, the paper’s formalism will provide a unified free energy functional for perception, motor action, and decision making over time.

2 预备知识和注释

我们假设所有的状态空间都是任意的潜在的和观察到的随机变量,没有任何关于其条件密度的离散或线性高斯假设。一些证据表明[24] 大脑可能事实上通过学习拉普拉斯域中的频率组合来表示时间[51], 因此,在模型中只使用三个层次不应该用来描述任何生物。

本节描述了一个生成模型和一个决策目标,在此目标下制定主动推理。表1 总结了本文其余部分将使用的符号。下一节将介绍生成模型的信念更新,代表更新信念的识别模型,以及知觉推理的自由能原理。后面的章节将展示如何扩展自由能最小化以逼近前馈计划器(在一般模型中)和反馈控制器(在识别模型中),从而最小化参考模型下的惊奇。

3 惊奇最小化和自由能原理

迄今为止构建的形式主义将导致仅仅基于前馈模型的规划器,其不能根据观察来校正即将到来的运动。贝叶斯规则规定了如何根据观察值更新关于未观察变量的概率信念:

弗里斯顿自由能原理[21] 假设一个系统、有机体或主体在一个变化的环境中, 通过包含其环境的一个生成模型并最小化该模型的长期平均惊奇,来保持其结构不受其环境的随机性的影响

(recognition model 类似 encode model;)

如何将期望的参考轨迹编码到生成模型或自由能边界的另一项中的问题[18]. 下一节将定义符合明确指定的参考轨迹的惊奇和自由能的概念。

4 带有显式引用的主动推理

5从最优控制导出时间平均主动推理

方程19中作用的最小化 假设固定的动作空间和前馈规划,这可能导致非常高维的递归优化问题。这些假设在经验上和计算上都是有问题的。有机体并不是生来就知道[9];他们学习[40]. 噪音[13,32], 不确定[23], 和可变性[47] 在运动控制方面不够完善,因此必须通过在线反馈来稳定运动。

随机最优反馈控制需要一个最优性原则,允许在行动步骤之间整合观察。而不是递归优化个人行动

Equation 20 below therefore instead considers optimality of the feedback-stabilized transition density

Equation 20 defines an optimal controller as one that achieves optimal state transitions;

individual actions act only as parameters to the optimal transition density.

这些方程采用“平滑”最小化,而不是“硬”递归最小化,因此它们支持前馈计划、反馈驱动的更新以及行为对风险的敏感性[57,39].

6讨论

泰德帕里[55] 1998 年发表了第一个基于模型的 RL 算法,而 Baxter 和 Bartlett[5] 给出了有偏的策略梯度估计量。亚历山大和布朗又花了十年时间[2]以给出平均成本时间差异学习的递归分解。张与罗斯[61] 直到最近,才首次发表了“深度”强化学习算法(基于函数逼近)对平均成本标准的适应,该标准仍然是无模型的。Jafarnia-Jahromi 等人[26]最近给出了第一个算法 , 用 于 求 解 具 有 已 知 观 测 密 度 和 未 知 动 态 的 无 限 时 域 平 均 代 价 部 分 可 观 测 问 题 。

这结束了主动推理的无限视野、平均惊奇公式的推导。由于我们的公式将行为情节置于情境中,所以尽管优化了“全局”(不确定)惊奇率(等式),只需要在情境中规划和调整行为(例如,从时间步长 1 到 T). 我们认为,这种积极推理公式可以推进基于模型的概率方法,分层反馈控制[40,33].

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档