虽然强化学习问题的一般形式能够对不确定性进行有效的推理,但在概率模型中,强化学习和推理之间的联系并不明显。...然而,当涉及到算法设计时,这种联系具有相当大的价值:原则上,将问题定义为概率推理允许我们使用大量的近似推理工具,以灵活和强大的方式扩展模型, 并对组合性和部分可观察性进行推理。...在本文中,我们将讨论强化学习或最优控制问题(有时称为最大熵强化学习)的推广如何等价于确定性动力学情况下的精确概率推理和随机动力学情况下的变分推理。...我们将详细介绍该框架的推导过程,概述基于该框架和相关思想提出新的强化学习和控制算法的前期工作,并描述未来研究的前景。...and training are better decoupled using Pyro
2.