文章/答案/技术大牛

发布

社区首页 >问答首页 >是否有可能在A2C稳定基线3中公开回放缓冲区以包括人工判断？

问是否有可能在A2C稳定基线3中公开回放缓冲区以包括人工判断？
EN

Stack Overflow用户

提问于 2022-04-13 10:23:47

回答 1查看 254关注 0票数 0

我正在使用来自稳定基础3 (包链接在这里)包的A2C (AdvantageActor批评者)框架来解决奖励为+1或0的强化问题。我有一种自动机制，在给定的状态下分配奖励给一个选择。然而，这种自动机制并不足以奖励我的选择。我已经评估过，人的判断(如果一个人坐着并奖励选择)是更好的。

现在，我想在培训中将这种人的判断纳入A2C框架。

这是我对A2C工作方式的理解：

假设一集中有N个时间步骤。轨道存储在一个经验回放缓冲区：(S1，A1，R1)，(S2，A2，R2)。在剧集结束时用来训练演员和评论家的神经网络。

我能访问这个被送到神经网络进行训练的缓冲区吗？或者在A2C框架的循环中引入人工是否有其他选择？

python

reinforcement-learning

stable-baselines

回答 1

Stack Overflow用户

发布于 2022-04-15 07:13:34

当然了!环境是一个简单的python脚本，在这个脚本中，在env.step末尾的某个地方，计算并返回奖励，然后与状态和动作一起添加到重放缓冲区中。

然后，您可以使用简单的I/O命令在每次执行操作时手动插入奖励值。

然而，深度强化学习通常需要几十万次迭代(经验)才能学习有用的东西(除非环境足够简单)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71855892

复制

相似问题

问是否有可能在A2C稳定基线3中公开回放缓冲区以包括人工判断？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有可能在A2C稳定基线3中公开回放缓冲区以包括人工判断？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有可能在A2C稳定基线3中公开回放缓冲区以包括人工判断？
EN