首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >策略优化在基于模型的RL中的作用

策略优化在基于模型的RL中的作用
EN

Data Science用户
提问于 2022-10-24 16:18:05
回答 1查看 17关注 0票数 0

因此,我有一个模拟M_{sim},它通过求解一组非线性微分方程来逼近一个非线性动态机器人模型M_{real}。在给定M_{sim}时,我使用一个代理A (即使用PPO,这是一种策略优化方法)来为某些奖励项R找到最优策略\pi^* w.r.t。

虽然我确实得到了一些好的结果(能够随着时间的推移而增加回报),但我突然想到,我实际上是在混合来自不同世界的方法--如果给出了M_{sim},那么我们正在处理基于模型的RL,如果是这样,那么使用策略优化是如何合理的,而根据定义,它并不是关于世界的任何东西?

至少在分类学方面,如果A的学习过程发生在M_{real}上就更合理了,因为这被认为是无模型的,但是当使用M_{sim}时,只使用无模型方法使用策略优化的所有概念似乎都不起作用。

我是不是遗漏了什么?

EN

回答 1

Data Science用户

发布于 2022-11-05 12:07:42

无模型的RL算法意味着算法不知道环境是如何工作的.在您的情况下,您的代理接收来自您的模拟模型的状态和奖励,并使用这些数据通过尝试和错误更新策略。因此,它仍然是无模型的(但在一个模拟环境中)。这与标准的RL基准环境没有什么不同,比如扭矩模拟器(如MuJoCo )。

一个基于模型的RL算法将知道环境是如何工作的(或者至少学习它),并且能够通过使用环境知识来规划行动。如果您希望代理使用模拟器的微分方程来获得更好的性能,您可以尝试其他方法,例如模型预测控制。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/115541

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档