首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

系统比较RL与AIF

主动推理是一种建模生物和人工智能代理行为的概率框架,源于最小化自由能的原则。近年来,该框架已成功应用于多种旨在最大化奖励的情境中,提供了与替代方法相媲美甚至有时更好的性能。在本文中,我们通过展示主动推理代理如何以及何时执行最大化奖励的最优操作,澄清了奖励最大化与主动推理之间的联系。确切地说,我们展示了在何种条件下主动推理产生贝尔曼方程的最优解,该方程是模型驱动的强化学习和控制的几种方法的基础。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以产生规划时域为1时的贝尔曼最优操作,但不能超越。相反,最近开发的递归主动推理方案(精细推理)可以在任何有限的时间范围内产生贝尔曼最优操作。我们通过讨论主动推理与强化学习之间更广泛的关系,补充了这一分析。

01
领券