我正在使用来自稳定基础3 (包链接在这里)包的A2C (AdvantageActor批评者)框架来解决奖励为+1或0的强化问题。我有一种自动机制,在给定的状态下分配奖励给一个选择。然而,这种自动机制并不足以奖励我的选择。我已经评估过,人的判断(如果一个人坐着并奖励选择)是更好的。
现在,我想在培训中将这种人的判断纳入A2C框架。
这是我对A2C工作方式的理解:
假设一集中有N个时间步骤。轨道存储在一个经验回放缓冲区:(S1,A1,R1),(S2,A2,R2)。在剧集结束时用来训练演员和评论家的神经网络。
我能访问这个被送到神经网络进行训练的缓冲区吗?或者在A2C框架的循环中引入人工是否有其他选择?
发布于 2022-04-15 07:13:34
当然了!环境是一个简单的python脚本,在这个脚本中,在env.step
末尾的某个地方,计算并返回奖励,然后与状态和动作一起添加到重放缓冲区中。
然后,您可以使用简单的I/O命令在每次执行操作时手动插入奖励值。
然而,深度强化学习通常需要几十万次迭代(经验)才能学习有用的东西(除非环境足够简单)。
https://stackoverflow.com/questions/71855892
复制相似问题