在调整深层Q网参数时,我们使用即时奖励。特别是在行动中回放和倒退。
但是在跑步的时候,我们根本不在乎回报。因为我们的神经网络会以状态作为输入。我是解释这个相关的深刻头脑Atari游戏玩纸。有什么是浪费投入吗?有没有一种机制,即使在运行时,我们也可以使用类似于得分的方法。
p.s -我理解他们是如何用回归更新神经网络参数的。有时与TD(λ)有关。
发布于 2017-12-05 07:24:23
我的朋友-祖珊给了我这个答案。所以我会把它发出去。我想它会描述它。有时,在运行时,使用即时奖励是不可取的。会把探员搞砸的。我会在这里引用它。
你的论点是有道理的,但并非总是如此。这是你在问题制定中所做的设计决策。然而,为了强调为什么在某些情况下这是行不通的,我将给出一个例子。说你在和一个RL经纪人玩射击游戏。在某个特定的地点,你会被敌人开枪打死。但是,如果将奖励包含在状态中,这可能会对算法提出建议,即这个位置总是不好的,并且会试图避免它(这是错误的)。我们不应该回避地点,而应该是敌人。
发布于 2017-12-08 03:36:22
我不太清楚你作为投入是什么意思。在监督学习中,学习信号来源于真实反应和模式反应(教师监督)的区别。在强化学习中,学习信号来自于可能出现延迟的奖励,有时在特定的试验中根本没有(但在另一个是)等等。
深度Q学习基本上是函数逼近的Q学习,是一种无模型的RL。这意味着最终你想让你的系统学习刺激和反应之间的映射关系。把它想象成一种由刺激引起的反射。奖励不能是你的系统的输入,因为它是你的学习信号。
如果你指的是经验回放,正如我对你提到的,奖励有时不会“准时”来。所以我们需要去关联状态、动作和序列,这就是为什么我们没有在每个时间步骤更新网络的原因。相反,我们更愿意构建一个有经验的缓冲区,并从中获取示例。因此,正如你所说的,你想要学会避免敌人而不是地点,为此,如果你从缓冲区中获取经验,网络的培训将更加“直观”。
https://datascience.stackexchange.com/questions/25399
复制相似问题