我对强化学习智能体训练是个新手。我已经阅读了PPO算法,并使用稳定基线库训练了一个使用PPO的智能体。因此,我的问题是如何评估一个训练有素的RL代理。考虑一个回归或分类问题,我有像r2_score或准确性等指标。有没有这样的参数,或者我如何测试智能体,得出智能体训练得好还是坏的结论。
谢谢
发布于 2019-10-31 21:37:09
您可以使用随机策略运行您的环境,然后使用经过训练的PPO模型使用相同的随机种子运行相同的环境。通过对累积奖励的比较,您可以初步了解训练模型的性能。
由于您使用PPO,因此您可能需要检查渐变的轨迹和KL散度值,以查看是否有定义良好的阈值来接受渐变步长。如果接受梯度步长很少,则可能需要修改参数。
发布于 2020-02-18 06:55:55
评估RL代理的一个好方法是在环境中运行N次,并计算N次运行的平均回报。
通常在整个训练过程中执行上述评估步骤,并在训练发生时绘制平均回报图。您可能会期望平均回报率上升,这表明培训正在做一些有用的事情。
例如,在PPO paper的图3中,作者绘制了带有训练步骤的平均回报,以表明PPO比其他算法性能更好。
https://stackoverflow.com/questions/58626404
复制相似问题