问我们如何使用当前的奖励作为系统输入在运行时，工作与深度Q学习？
EN

Data Science用户

提问于 2017-12-05 06:05:38

回答 2查看 55关注 0票数 1

在调整深层Q网参数时，我们使用即时奖励。特别是在行动中回放和倒退。

但是在跑步的时候，我们根本不在乎回报。因为我们的神经网络会以状态作为输入。我是解释这个相关的深刻头脑Atari游戏玩纸。有什么是浪费投入吗？有没有一种机制，即使在运行时，我们也可以使用类似于得分的方法。

p.s -我理解他们是如何用回归更新神经网络参数的。有时与TD(λ)有关。

reinforcement-learning

回答 2

Data Science用户

发布于 2017-12-05 07:24:23

我的朋友-祖珊给了我这个答案。所以我会把它发出去。我想它会描述它。有时，在运行时，使用即时奖励是不可取的。会把探员搞砸的。我会在这里引用它。

你的论点是有道理的，但并非总是如此。这是你在问题制定中所做的设计决策。然而，为了强调为什么在某些情况下这是行不通的，我将给出一个例子。说你在和一个RL经纪人玩射击游戏。在某个特定的地点，你会被敌人开枪打死。但是，如果将奖励包含在状态中，这可能会对算法提出建议，即这个位置总是不好的，并且会试图避免它(这是错误的)。我们不应该回避地点，而应该是敌人。

票数 1

Data Science用户

发布于 2017-12-08 03:36:22

我不太清楚你作为投入是什么意思。在监督学习中，学习信号来源于真实反应和模式反应(教师监督)的区别。在强化学习中，学习信号来自于可能出现延迟的奖励，有时在特定的试验中根本没有(但在另一个是)等等。

深度Q学习基本上是函数逼近的Q学习，是一种无模型的RL。这意味着最终你想让你的系统学习刺激和反应之间的映射关系。把它想象成一种由刺激引起的反射。奖励不能是你的系统的输入，因为它是你的学习信号。

如果你指的是经验回放，正如我对你提到的，奖励有时不会“准时”来。所以我们需要去关联状态、动作和序列，这就是为什么我们没有在每个时间步骤更新网络的原因。相反，我们更愿意构建一个有经验的缓冲区，并从中获取示例。因此，正如你所说的，你想要学会避免敌人而不是地点，为此，如果你从缓冲区中获取经验，网络的培训将更加“直观”。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/25399

复制

相似问题

问我们如何使用当前的奖励作为系统输入在运行时，工作与深度Q学习？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们如何使用当前的奖励作为系统输入在运行时，工作与深度Q学习？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们如何使用当前的奖励作为系统输入在运行时，工作与深度Q学习？
EN