因此,我有一个模拟M_{sim},它通过求解一组非线性微分方程来逼近一个非线性动态机器人模型M_{real}。在给定M_{sim}时,我使用一个代理A (即使用PPO,这是一种策略优化方法)来为某些奖励项R找到最优策略\pi^* w.r.t。
虽然我确实得到了一些好的结果(能够随着时间的推移而增加回报),但我突然想到,我实际上是在混合来自不同世界的方法--如果给出了M_{sim},那么我们正在处理基于模型的RL,如果是这样,那么使用策略优化是如何合理的,而根据定义,它并不是关于世界的任何东西?
至少在分类学方面,如果A的学习过程发生在M_{real}上就更合理了,因为这被认为是无模型的,但是当使用M_{sim}时,只使用无模型方法使用策略优化的所有概念似乎都不起作用。
我是不是遗漏了什么?
发布于 2022-11-05 12:07:42
无模型的RL算法意味着算法不知道环境是如何工作的.在您的情况下,您的代理接收来自您的模拟模型的状态和奖励,并使用这些数据通过尝试和错误更新策略。因此,它仍然是无模型的(但在一个模拟环境中)。这与标准的RL基准环境没有什么不同,比如扭矩模拟器(如MuJoCo )。
一个基于模型的RL算法将知道环境是如何工作的(或者至少学习它),并且能够通过使用环境知识来规划行动。如果您希望代理使用模拟器的微分方程来获得更好的性能,您可以尝试其他方法,例如模型预测控制。
https://datascience.stackexchange.com/questions/115541
复制相似问题