问策略优化在基于模型的RL中的作用
EN

Data Science用户

提问于 2022-10-24 16:18:05

回答 1查看 17关注 0票数 0

因此，我有一个模拟M_{sim}，它通过求解一组非线性微分方程来逼近一个非线性动态机器人模型M_{real}。在给定M_{sim}时，我使用一个代理A (即使用PPO，这是一种策略优化方法)来为某些奖励项R找到最优策略\pi^* w.r.t。

虽然我确实得到了一些好的结果(能够随着时间的推移而增加回报)，但我突然想到，我实际上是在混合来自不同世界的方法--如果给出了M_{sim}，那么我们正在处理基于模型的RL，如果是这样，那么使用策略优化是如何合理的，而根据定义，它并不是关于世界的任何东西？

至少在分类学方面，如果A的学习过程发生在M_{real}上就更合理了，因为这被认为是无模型的，但是当使用M_{sim}时，只使用无模型方法使用策略优化的所有概念似乎都不起作用。

我是不是遗漏了什么？

发布于 2022-11-05 12:07:42

无模型的RL算法意味着算法不知道环境是如何工作的.在您的情况下，您的代理接收来自您的模拟模型的状态和奖励，并使用这些数据通过尝试和错误更新策略。因此，它仍然是无模型的(但在一个模拟环境中)。这与标准的RL基准环境没有什么不同，比如扭矩模拟器(如MuJoCo )。

一个基于模型的RL算法将知道环境是如何工作的(或者至少学习它)，并且能够通过使用环境知识来规划行动。如果您希望代理使用模拟器的微分方程来获得更好的性能，您可以尝试其他方法，例如模型预测控制。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/115541

复制

相似问题

问策略优化在基于模型的RL中的作用EN