首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >您如何评估经过训练的强化学习代理,无论它是否经过训练?

您如何评估经过训练的强化学习代理,无论它是否经过训练?
EN

Stack Overflow用户
提问于 2019-10-30 21:24:57
回答 2查看 406关注 0票数 0

我对强化学习智能体训练是个新手。我已经阅读了PPO算法,并使用稳定基线库训练了一个使用PPO的智能体。因此,我的问题是如何评估一个训练有素的RL代理。考虑一个回归或分类问题,我有像r2_score或准确性等指标。有没有这样的参数,或者我如何测试智能体,得出智能体训练得好还是坏的结论。

谢谢

EN

回答 2

Stack Overflow用户

发布于 2019-10-31 21:37:09

您可以使用随机策略运行您的环境,然后使用经过训练的PPO模型使用相同的随机种子运行相同的环境。通过对累积奖励的比较,您可以初步了解训练模型的性能。

由于您使用PPO,因此您可能需要检查渐变的轨迹和KL散度值,以查看是否有定义良好的阈值来接受渐变步长。如果接受梯度步长很少,则可能需要修改参数。

票数 0
EN

Stack Overflow用户

发布于 2020-02-18 06:55:55

评估RL代理的一个好方法是在环境中运行N次,并计算N次运行的平均回报。

通常在整个训练过程中执行上述评估步骤,并在训练发生时绘制平均回报图。您可能会期望平均回报率上升,这表明培训正在做一些有用的事情。

例如,在PPO paper的图3中,作者绘制了带有训练步骤的平均回报,以表明PPO比其他算法性能更好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58626404

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档