dqn目标网络_dqn中的两个网络_使用DQN处理目标时出现奇怪的结果 - 腾讯云开发者社区

、、、

我刚接触深度强化学习，DQN模型。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。它还在这里解释了How does DQN work in an environment where reward is always -1。所以这让我感到困惑，如何确定动作或状态的奖励？以及如何避免“自杀本身”的情况，在这种情况下，智能体自杀而不是试图到达目标，因为“活惩罚”(智能体每一步都会收到惩罚，以加速开发阶段的探索)。

浏览 98提问于2020-07-21得票数 0

2回答

DDQN和DQN有什么区别？

、、、

我想我不明白DQN和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络，但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中，这是在DQN的操作完成后添加的，https://github.com/keon/deep-q-learning将self.target_model.set_weights(self.model.get_weights())添加到<e

浏览 0提问于2018-09-22得票数 10

2回答

如何在RL中获取q值

、、、

DQN是正常网络，TAR是目标网络。q_values = self.DQN.predict(c_states) # DQN batch predict Q on states tar_next = self.TAR.predict(n_states) # TAR batc

浏览 6提问于2019-12-22得票数 1

回答已采纳

1回答

Q-学习:目标网络与双DQN

我很难理解目标网络和双DQN之间的区别目标网络生成目标值-Q值，用于计算训练过程中的每一个动作的损失。目标网络的权重是固定的，而且通常是通过向主Q网络值进行少量更新。双DQN:在计算训练步骤的目标q值时，我们没有取最大q值，而是使用我们的主网络选择一个动作，而我们的目标网络为该动作生成目标q值。这听起来和我很相

浏览 0提问于2018-05-28得票数 11

回答已采纳

4回答

为什么我的深Q网和双深Q网不稳定？

、、、

我正在尝试实现DQN和DDQN(都有经验的答复)来解决OpenAI AI-GymCart极地环境.这两种方法有时都能够学习和解决这个问题，但并非总是如此。我的网络只是一个前馈网络(我尝试使用1和2个隐藏层)。在DDQN中，我在DQN中创建了一个网络，在DDQN中创建了两个网络，一个评估Q值的目标网络和一个选择最佳动作的主网络，训练主网络，并在一些事件发生后将其复制到目标网络。<em

浏览 0提问于2018-10-12得票数 4

1回答

深度Q学习(dqn)与神经拟合Q迭代的区别

根据我的理解，它们似乎在做同样的事情，除了dqn每C步更新一次目标网络。

浏览 8提问于2019-04-25得票数 2

1回答

DQN agent训练目标的维数

、、、

据我所知，DQN代理的输出与操作(对于每个状态)一样多。如果我们考虑一个具有4个动作的标量状态，那就意味着DQN将有一个4维的输出。然而，当涉及到用于训练代理的目标值时，通常将其描述为标量值=奖励+ discount*best_future_Q。如何利用标量值训练具有向量输出的神经网络？

浏览 0提问于2021-03-28得票数 2

2回答

深Q网络中的Q-学习方程

、、、、

假设我使用DQN来玩Atari突破，可能的状态数很大(假设状态是单个游戏的框架)，所以创建所有q值的矩阵是不有效的。方程应该更新给定状态的q值，动作对，那么在DQN的情况下它会做什么呢？

浏览 1提问于2018-05-29得票数 2

回答已采纳

1回答

为什么需要目标网络？

、

我很关心为什么目标网络在DQN中是必需的？我正在读关于“通过深入强化学习来控制人的层次”的论文。我理解Q-学习。Q-网络的周期性变化可能导致分布的不稳定和变化.例如，如果我们总是左转或类似的东西。行动值(Q)和目标值r + $gamma$ (argmax(Q(s’,a’))之间的相关性表明，回报+伽玛*我对回报的预测，考虑到我认为在当前状态下采取最好的行动，并从那时起遵循我的政策。我们使用了一个迭代更新，将动作值(Q)调整为仅定期更新的目标值，从而降低了与目标的相关性

浏览 2提问于2019-01-17得票数 28

回答已采纳

1回答

Q-value在训练DQN时不断递减

、、

我正在训练一个DQN，Q值一直在下降。曲线看起来非常奇怪(见下文)。每一步都对应于对目标网络的更新。发生这种情况的可能原因是什么？

浏览 6提问于2017-11-28得票数 0

1回答

为什么DQN对Cart极游戏有一个上升的奖励，而损失没有下降？

、、、、

我写了一个DQN，与TensorFlow和tf_agents一起玩TensorFlow和tf_agents的健身车杆游戏。optimizer = Adam(learning_rate=learning_rate) agent = dqn_agent.DqnAgent

浏览 4提问于2020-06-26得票数 1

回答已采纳

1回答

DQN -目标值与动作值？

、、

我试图理解深度Q网络中的目标值和动作值之间的区别。 https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

浏览 0提问于2019-07-21得票数 1

回答已采纳

2回答

DQN工作不正常

、、

我正在尝试使用keras用Python编写自己的DQN。我认为我的逻辑是正确的。我正在CartPole环境上尝试，但是在50,000集之后，回报并没有增加。任何帮助都将不胜感激。目前，我不期待决斗或双DQN部分。

浏览 4提问于2017-12-04得票数 3

回答已采纳

2回答

Q-训练DQN时的值爆炸

、、、、

我正在训练一个DQN来玩OpenAI的Atari环境，但是我的网络的Q值迅速爆炸，远远超出了现实的范围。我的理解是，在培训期间将网络本身的输出传递给网络应该保持输出不变，而不是增加或减少输出。我的模特有什么问题吗？是否有什么方法可以掩盖更新，使其只更新相关的Q值？一个用于在线网络，另一个用于目标。

浏览 2提问于2018-02-21得票数 9

回答已采纳

1回答

Double QN是如何工作的？

、、

用于计算Q值以更新在线网络的Bellman方程遵循以下方程：用于计算原始DQN中的Q值更新的Bellman方程为：但是，使用online_network的权重和值来更新用于评估动作的<

浏览 3提问于2020-07-10得票数 0

1回答

DQN中的神经网络用于学习像监督模型一样吗？

、、、、

DQN中的神经网络用于学习像监督模型一样吗？

浏览 0提问于2018-08-31得票数 2

回答已采纳

1回答

PyTorch软件最大返回

、、

我使用这些数据发送输入到我的深Q网络。首先，我将输入从python列表更改为张量，以便我的Deep网络可以将其作为输入。.to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))test_net = self.policy_net(input).max(1)[1].view(1, 1)class DQN(nn.Modul

浏览 0提问于2020-08-03得票数 0

回答已采纳

1回答

稳定基线: DQN表现不佳？

、、

我有问题在使用DQN作为对角线和正弦波作为价格波动。当价格上涨时，就会有奖励，并在图表中被涂成绿色。当价格下跌，并被标记为红色，奖励就会上升。请看这个链接的DQN是非常好的学习比稳定基线的DQN。我有一个困难，甚至使用对角线的DQN。罪恶波:如果结果正好相反，那就太好了。绿色代表上升，红色代表下降。我所做的就是把学习率从.01改为10.Epsilon到1。只需对测试PPO2和DQN所需的内容进行评论和注释即可。numpy as np imp

浏览 1提问于2020-11-04得票数 2

1回答