pytorch dqn_Pytorch Double DQN无法正常工作_使用pytorch的dqn的动作选择 - 腾讯云开发者社区

你好，我是PyTorch的新手，我想在我的神经网络中使用均方对数误差作为损失函数来训练我的DQN代理，但是我在PyTorch的nn.functional中找不到MSLE，什么是实现它的最好方法？

浏览 27提问于2021-05-22得票数 1

回答已采纳

1回答

Pytorch使用了太多的资源

、、、

我正在使用pytorch训练一个DQN模型。使用ubuntu，如果我使用htop，我会得到 ? 正如你所看到的，所有的资源都被使用了，我对此有点担心。这是我的code。有没有办法使用更少的资源？我必须使用pytorch添加我的需求吗？请注意，我的计算机上没有GPU，只有CPU

浏览 19提问于2020-04-09得票数 5

回答已采纳

1回答

NameError:在GOOGLE COLAB中运行开放式AI健身房时未定义名称'base‘

、、、、

我正在学习Pytorch.org，中的DQN强化学习教程但在这里，当我试图渲染一个屏幕并使用python display显示时，我得到的结果是name base not found。有人能帮我吗？如果你想澄清这个问题，我在这里提前谢谢你。

浏览 2提问于2020-08-05得票数 1

1回答

我的问题是在我对PyTorch DQN教程中的代码进行检查后提出的，但随后又提到了强化学习:强化学习中最佳探索/利用的最佳实践是什么？在DQN教程中，steps_done变量是一个全局变量，EPS_DECAY = 200。这意味着:在128步之后，ε阈值= 0.500；在889步之后，ε阈值= 0.0600；以及在1500步之后，ε阈值= 0.05047。这可能适用于本教程中介绍的CartPole问题-早期的片段可能非常短，任务相当简单-但对于需要更多探索的更复杂的问题呢？例如，如果我们有一个40,000集的问题，每个集都有10,000个时间步，我们如何设置epsilon贪婪探索策略？在

浏览 22提问于2019-02-04得票数 0

回答已采纳

1回答

如何在PyTorch中为软角色评论者设置损失函数

、、、

我正在尝试在PyTorch中为软Q学习、参与者-批评者策略梯度算法实现一个自定义损失函数。这来自于下面的论文。该算法的结构类似于深度Q学习，因为我们使用网络来估计Q值，并使用目标网络来稳定结果。然而，与DQN不同的是，我们从Q(s)计算V(s)的方法是：这非常简单，可以用PyTorch进行计算。我的主要问题是如何设置损失函数。更新方程式的一部分表示为：请注意，Q_hat来自目标网络。我怎么才能把这样的东西放到损失函数中呢？我可以计算V和Q的值，但是在这种情况下，我如何处理梯度呢？如果有人能给我一个类似的例子，那将非常感谢。

浏览 21提问于2019-11-20得票数 0

1回答

解决错误:尺寸错配，m1：[30x2]，m2：[30x2]

、、

我收到以下错误消息： Traceback (most recent call last): File "C:\Users\Sam\Desktop\Bitcoin\Q_Learning\DQN_NEW_Original.py", line 122, in <module> agent = Agent(lr=0.001, input_dims=env.observation_space.shape, n_actions=env.action_space.n) File "C:\Users\Sam\Desktop\Bitcoin\Q_L

浏览 0提问于2021-06-21得票数 0

1回答

决斗DQN和双DQN的区别？

、、、

我读过一些文章，但还是找不出决斗DQN和双DQN之间的区别吗？他们之间到底有什么区别？另外，决斗DQN需要建立在双DQN之上吗？谢谢!

浏览 0提问于2019-05-31得票数 3

1回答

需要在lua中具有不同文件名的包。

、

我对Lua很陌生，所以请原谅我的弱智问题。遵循，我试图将DeepMind dqn导入到iTorch笔记本中。我克隆了一个包含源代码所在的名为的文件夹的dqn。我已经将路径添加到dqn文件夹 package.path = package.path .. ";/path/to/dqn/?.lua" 当我试着去做 require 'dqn' 我获得了一个(预期的)错误，因为文件夹中没有名为dqn.lua的文件。实际上，这些模块的源代码包含在文件NeuralQLearner.lua中。我已经看到了，它暗示了文件名和包名之间的问题。所以我的问题是:如何正确导入这

浏览 3提问于2015-11-16得票数 1

回答已采纳

1回答

AttributeError：'Adam‘对象没有属性'_name’

、、、

我想编译我的DQN代理，但是我得到了错误：AttributeError: 'Adam' object has no attribute '_name'， DQN = buildAgent(model, actions) DQN.compile(Adam(lr=1e-3), metrics=['mae']) 我试着添加假_name，但它不起作用，我正在学习一个教程，它可以在家教的机器上工作，这可能是一些新的更新更改，但是如何修复这是我的完整代码： from keras.layers import Dense, Flatten import gym

浏览 8提问于2022-04-16得票数 1

回答已采纳

2回答

如何在RL中获取q值

、、、

我不知道如何获得DDQN的Q值。 DQN是正常网络，TAR是目标网络。 q_values = self.DQN.predict(c_states) # DQN batch predict Q on states dqn_next = self.DQN.predict(n_states) # DQN batch predict Q on next_states tar_next = self.TAR.predict(n_states) # TAR batch predict Q on next_states 我主要找到两个版本：版本1: q_values[i][acti

浏览 6提问于2019-12-22得票数 1

回答已采纳

1回答

如何构建基于环境状态在环境中选择正确对象的DQN？

、、、

我有一个有4个对象的环境。可以选择所有这些对象，也可以不选择。因此，我的DQN所采取的行动应该类似于- [1,0,1,1],[0,0,0,1],[1,1,0,0]...etc。其中1表示对象被选中，0表示对象未被选中。作为DQN输入的环境状态由每个对象的属性和环境的其他因素组成。DQN将根据它所做的选择获得奖励。我刚开始强化学习，我只构建了DQN，它需要从整个动作空间中选择一个动作。但是如何为这个特定的环境构建一个DQN或强化学习网络呢？

浏览 0提问于2020-05-22得票数 1

回答已采纳

1回答

DoubleDQN与DQN的性能比较

、

我在健身房NChain游戏上尝试了DoubleDQN和DQN算法，发现DoubleDQN的性能并不比DQN更稳定或更好。我将每次操作后训练的批量大小设置为1，我可以知道这是DoubleDQN没有优于DQN的原因吗？

浏览 5提问于2019-07-05得票数 0

1回答

如何总结pytorch模型

、

你好，我正在构建一个DQN模型，用于在cart极上进行强化学习，并希望打印我的模型摘要，比如keras model.summary()函数。这是我的模特班。 class DQN(): ''' Deep Q Neural Network class. ''' def __init__(self, state_dim, action_dim, hidden_dim=64, lr=0.05): super(DQN, self).__init__() self.criterion = to

浏览 2提问于2022-11-16得票数 0

1回答

调试强化学习模型(MsPacman)

、、

我是RL的新手，我正在尝试训练一个RL代理来扮演MsPacman在PyTorch中的角色。针对我的问题，我在页面上修改了来自PyTorch的代码。DQN具有以下体系结构： DQN( (conv1): Conv2d(1, 32, kernel_size=(8, 8), stride=(4, 4), padding=(2, 2)) (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (conv2): Conv2d(32, 64, kernel_size=(4, 4)

浏览 4提问于2020-06-17得票数 1

1回答

dqn培训部分与SVR和RF的比较

、、、、

我在理解DQN的培训部分有一些问题。和Ytrain在DQN的哪里？因为DQN算法不清楚。 https://cdn-images-1.medium.com/max/1600/1*nb61CxDTTAWR1EJnbCl1cA.png 另外，如果需要比较dqn的结果与随机森林和支持向量回归的结果。我需要为他们准备Xtrain和Ytrain。 (我的意思是用监督学习或非监督学习代替深度学习部分)？

浏览 2提问于2018-07-26得票数 0

2回答

与游戏世界一起启动以子宫豌豆音乐的主要功能？(在Haskell)

、

制作一个游戏，并寻找一种方式来启动音乐(在哈斯克尔与埃赫佩亚制作)时，调用主要功能，以启动游戏。这个代码的问题是它会播放音乐，但是它不会开始游戏。如果我把音乐放在Pure.Game.play之后，游戏就开始了，但不会播放音乐。 main :: IO () main = do backgroundImage <- background let backgrounds = [backgroundImage] **Euterpea.play $ Euterpea.line [af 4 dqn :=: cf 4 dqn :=: ef 4 dqn]** Graphics.Gloss.Inter

浏览 2提问于2019-02-25得票数 0

1回答

在我的MAC M1空气中建立深度强化学习环境

、、、、

I recently set up my MAC M1 Air to implement deep reinforcement learning. But, when I started following this tutorial - Deep Reinforcement Learning Tutorial for Python https://www.youtube.com/watch?v=cO5g5qLrLSo&list=PLgNJO2hghbmjlE6cuKMws2ejC54BTAaWV&index=2, I got errors with DQN Agent as

浏览 1提问于2021-05-28得票数 1

回答已采纳

1回答

为什么在安装keras之后会出现ModuleNotFound错误？

、、、

我这么做是为了学习DQN。我确信我已经安装了keras，因为当我输入命令提示符pip install keras时，我得到的只有Requirement is Already Satisfied。我的代码： from dqn_agent import DQNAgent from tetris import Tetris from datetime import datetime from statistics import mean, median import random from logs import CustomTensorBoard from tqdm import tqdm 获取

浏览 2提问于2020-08-18得票数 0

1回答

Pytorch模型不更新权重

、

我试图用pytorch解决CartPole问题，但是在几次迭代之后，参数没有更新。我试图重现的代码是在keras中编写的代码。 import random from collections import deque import gym import numpy as np import torch.nn as nn import torch GAMMA = 0.95 MEMORY_SIZE = 1000000 BATCH_SIZE = 50 EXPLORATION_MAX = 1.0 EXPLORATION_MIN = 0.01 EXPLORATION_DECAY = 0.995

浏览 3提问于2019-10-10得票数 0

2回答

Pytorch -在eval()和train()模式之间来回往返

、、、、

我正在学习“深度强化学习”，并在pytorch的强化学习(DQN)教程之后构建我自己的示例。我正在实现参与者的策略如下: 1. model.eval() 2.从模型3. self.net.train()获得最佳动作问题是:在eval()和train()模式之间来回往返是否会对优化过程造成任何损害？该模型只包括线性层和BatchNorm1d层。据我所知，在使用BatchNorm1d时，必须执行model.eval()才能使用模型，因为eval()和train()模式有不同的结果。在训练分类神经网络时，model.eval()只在训练结束后进行，但在“深度强化学习”的情况下，通常采用策略，

浏览 3提问于2019-10-18得票数 3

回答已采纳

2回答

DDQN和DQN有什么区别？

、、、

我想我不明白DQN和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络，但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中，这是在DQN的操作完成后添加的，https://github.com/keon/deep-q-learning将self.target_model.set_weights(self.model.get_weights())添加到DQN中，以便将DQN更改为DDQN！但这发生在我们出去跑步时休息一下！因为他们之间没有什么区别

浏览 0提问于2018-09-22得票数 10

1回答

在Keras库中，"nb_steps_warmup“在DQNAgent对象初始化中的含义是什么？

、

我不明白"nb_steps_warmup“的含义，”__init__“是Keras_RL模块的DQNAgent类的一个参数。我只知道当我为"nb_steps_warmup“设置小值时，命令行会打印：UserWarning: Not enough entries to sample without replacement. Consider increasing your warm-up phase to avoid oversampling! 这是我的密码： import numpy as np import gym import gym_briscola import ar

浏览 0提问于2019-02-22得票数 4

回答已采纳

1回答

凯拉斯·瑞尔训练后的强化模型

、、、

我想先用健身房环境来训练我的强化学习模型，然后把它部署到现实环境中，继续在真实环境中进行强化学习。我正在使用TF，Keras +健身房进行初始训练，下面的代码是如何管理的？在谷歌中迷失了我猜想，在真实的环境中，我应该有两个代理人，一个用于预测，另一个用于进一步的训练。训练agent应基于运行时采集的状态-动作样本工作，然后将新的训练模型合并到预测模型中。如果它是正确的假设，它如何实现？ import numpy as np from tensorflow.keras.models import Sequential from tensorflow.keras.layers import D

浏览 3提问于2021-04-25得票数 2

1回答

在Keras强化学习中，问号意味着什么?我如何复制它？

、、、

我目前正在研究一个强化学习模型，并且在尝试创建一个DQN以在我的自定义环境中工作时遇到了一个问题。在用以下行实例化DQN代理时： dqn = DQNAgent(model=model, memory=memory, policy=policy, nb_actions=(None,actions), nb_steps_warmup=10, target_model_update=1e-2) 注意，action=3(整数)。我得到了错误代码： raise ValueError(f'Model output "{model.output}&#

浏览 17提问于2021-12-29得票数 0

2回答

如何理解这个map-reduce代码是如何工作的？

它将一个二维数组的第一行作为标题。在这里的这一部分，我不明白发生了什么： const fn = ([keys, ...values]) => values.map(vs => vs.reduce((acc, v, i) => (acc[keys[i]] = v, acc), {})) const array = [ [ 'combi', 'DQ#', 'sd', 'Level 3', 'Level 6', 'Level 7' ], [ 'DQ

浏览 16提问于2021-10-05得票数 0

回答已采纳

1回答

keras dqn代理需要更多维度

、、、

我已经在openAI健身房的基础上构建了一个定制环境，我的目标是在这个环境上训练一个DQN代理。在此环境中，每个观察空间为一行和75列，因此 env.observation_space.shape (75,) 当我构建模型时，我使用以下内容： def build_model(states, actions): model = Sequential() model.add(Dense(75, activation = 'relu', input_dim = 75)) model.add(Dense(75, activation = 'relu&

浏览 0提问于2021-01-20得票数 1

1回答

策略梯度与值函数，当通过DQN实现时

、

在研究了Q-学习之后，Sarsa & DQN现在发现了一个术语“策略梯度”。我有点不清楚它与上述方法有何不同。这是我的理解，请改正：从我第一次遇到DQN的那一刻起，我就一直认为DQN的输入向量仅仅是由当前状态的特征组成的。On作为DQN的输出层，我们有一个动作向量。然后我们拿出得分最高的动作a的指数，然后执行它.它使我们进入下一个州s'。为了计算误差(我们估计了a的分数有多不正确)，我们将s'提供给我们的DQN，然后发现它的最高动作类似于1。再次，it将位于DQN的输出层上。通过引导a到a'来计算错误。除了选择的动作a的索引处外，“错误”向量在任何地方都

浏览 0提问于2018-07-18得票数 3

回答已采纳

1回答

使用DQN处理目标时出现奇怪的结果

、

我一直在尝试用目标网络实现DQN，但我得到了一些非常奇怪的结果。当我尝试在Cartpole上从头开始训练我的DQN时，它似乎没有学习，损失以指数的方式增加。然而，如果我加载一个在没有使用目标网络的情况下训练的预训练模型，该模型工作得非常好，优于传统DQN的持续训练。有人能看一下我的代码，告诉我问题出在哪里吗？ import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F import random import math import numpy as np i

浏览 24提问于2019-07-19得票数 0

回答已采纳

1回答

真实角角rl DQN预测

、、、、

大家好，我遵循教程来训练DQN代理，一切都很好 env = gym.make('CartPole-v0') states = env.observation_space.shape[0] actions = env.action_space.n episodes = 10 for episode in range(1, episodes+1): state = env.reset() done = False score = 0 while not done: env.render() action

浏览 13提问于2021-12-29得票数 0

1回答

错误:找不到可变密度_24/偏差。这可能意味着该变量已被删除。

、、、、

我试着用openai健身房、tensorflow和keras来做一个学习模型。我使用以下方法构建模型： def build_model(states, actions): model = Sequential() model.add(Dense(24, activation='relu', input_shape=states)) model.add(Dense(24, activation='relu')) model.add(Dense(actions, activation='linear')) return model model

浏览 22提问于2021-12-11得票数 1

回答已采纳

1回答

用于DQN强化学习的Keras Tensorboard

、、、、

我正在使用keras来构建一个DQN，并用一个带有经验回放记忆的经典DQN算法来训练它。因为在dqn中您需要多次调用model.fit，这意味着每次您从重放内存中采样批处理数据时，在使用keras的model.fit( .... callbacks=TensorBoard(...))时，每次fit都会生成新的事件日志文件。它产生了两个问题，首先，它生成了太多的事件日志文件，大大减慢了训练速度，而且在Tensorboard中，你看不到任何趋势，例如损失的逐渐减少。有什么方法可以可视化训练过程，比如在强化学习中查看梯度和激活的变化，特别是DQN实现？

浏览 20提问于2019-01-09得票数 4

1回答

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

、、、

如果不使用深层神经网络(DNN)来实现强化学习算法，比如深度Q-网络(DQN)，可以实现吗？如何将DQN算法中的DNN替换为另一种算法？它应该是监督的还是不受监督的，这叫什么--是“联合国/监督强化学习”还是“联合国/监督强化学习”？在下面的DQN伪码中，如果我想用另一种无监督算法替换DNN部分，它可能吗？如果是这样的话，是怎么做的？ 📷

浏览 0提问于2018-08-31得票数 3

1回答

使用tensorflow解决openai健身房问题的双足步行者

、、

我正试图解决openai的Bipedalwalker问题。问题是，我总是得到错误:输出的形状应该是-1到1之间的4个值(比如: 0.45099565 -0.7659952 -0.01972992 0.62626314)，所以我定义了这样的模型： def build_model(states, actions): model = Sequential() model.add(Flatten(input_shape=(1, states))) model.add(Dense(24, activation='relu')) model.add(Dense(24, activation

浏览 5提问于2021-09-25得票数 0

1回答

ValueError:检查输入时出错:期望flatten_input具有形状.但得到了这个形状

、、、

在openai-健身房环境下，尝试用Tensorflow/Keras实现DQN时，我遇到了以下错误： ValueError: Error when checking input: expected flatten_input to have shape (1, 4) but got array with shape (1, 2)) 我试过的是：我确实明白，我的模型得到了错误的输入，，但是我还没有弄清楚为什么，以及如何。可以看到，还有一个扁平的层，正如其他线程中所建议的那样。 + 版本：python 3.8.0，gym 0.26.2，protobuf 3.19.10，tensorflow 2

浏览 13提问于2022-10-07得票数 0

2回答

不能用PyTorch打印模型摘要吗？

、

浏览 31提问于2022-11-20得票数 1

2回答

将具有第一行标题的二维数组转换为object JavaScript

、、

我有一个以第一行作为标题的数组： array = [[ 'combi', 'DQ#', 'sd', 'Level 3', 'Level 6', 'Level 7' ], [ 'DQn DQDC Simple','DQn', 'DQDC', 'Simple', 'Simple_A7', 0.262],[ 'DQn DQDC Simple1','DQn', 'DQDC'

浏览 39提问于2021-04-07得票数 2

回答已采纳

1回答

DQN在Atari Pong任务中坚持次优策略

、、、

我正在用Atari的目标环境从零开始在PyTorch中实现DQN模型。经过一段时间的超参数调整后，我似乎无法获得模型来实现大多数出版物中所报告的性能(~ +21奖励；这意味着代理几乎赢得了每一次截击)。我最近的结果如下图所示。请注意，x轴是集(完整的游戏到21)，但总训练迭代是670万。我的设置的具体内容如下：模型 class DQN(nn.Module): def __init__(self, in_channels, outputs): super(DQN, self).__init__() self.conv1 = nn.Conv2

浏览 0提问于2019-01-25得票数 0

1回答

Keras强化学习:如何将奖励传递给模型

、、、

import numpy as np import gym from gym import wrappers # 追加 from keras.models import Sequential from keras.layers import Dense, Activation, Flatten from keras.optimizers import Adam from rl.agents.dqn import DQNAgent from rl.policy import BoltzmannQPolicy from rl.memory import SequentialMemory EN

浏览 8提问于2018-06-12得票数 1

1回答

AttributeError-rl2错误：'Sequential‘对象没有属性'_compile_time_distribution_strategy’

、

当使用下面的代码时，我得到了这个错误AttributeError：'Sequential‘对象没有带keras-rl2的属性'_compile_time_distribution_strategy’。我已经搜索了整个互联网，但没有找到一个解决方案。 import gym import tensorflow print("Import Done") env = gym.make("CartPole-v0") states = env.observation_space.shape[0] print(env.observation_space.

浏览 147提问于2021-07-31得票数 1

1回答

TensorFlow:我如何总结TensorBoard的两个对象网络？

、

我有一个类，它有创建网络的方法。 class DQN: def __init__(self, session, input_size, output_size, name): . . . self._build_network() def _build_network(self, h_size=16, l_rate=0.01): with tf.variable_scope(self.net_name): self._X = tf.placeholder(tf.float3

浏览 1提问于2017-06-09得票数 0

回答已采纳

1回答

基于多离散动作空间的健身DQN Agent训练

、、

我想用Keras-rl训练DQN代理。我的环境既有多个离散的动作空间，也有观察空间。我正在修改这个视频的代码：然后，我分享我的代码 class ShowerEnv(Env): def __init__(self, max_machine_states_vec, production_rates_vec, production_threshold, scheduling_horizon, operations_horizon = 100): """ Returns: self.action_space is a v

浏览 13提问于2022-01-26得票数 1

回答已采纳

1回答

为什么在运行keras.fit时出现值错误

、、、

我想训练AI发挥突破，但当我做DQN.fit(env, nb_steps=1000000, visualize=True, verbose=1)，以下错误发生： ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all() 这是我的代码： import numpy as np import tensorflow as tf from rl.agents.dqn import DQNAgent from rl.policy import LinearA

浏览 7提问于2022-04-17得票数 0

1回答

ValueError:检查输入时出错:期望permute_input有4个维，但得到了形状为(1，4)的数组

、、、、

在过去的一周里，我一直在调试这个错误，我不知道为什么我的代码不能工作。我们有一个自定义环境，我们的强化学习问题是采取一个512x512映像，并决定我们应该做行动1还是行动2。 env = customEnv() nb_actions = env.action_space.n # 2 options shape = env.observation_space.shape pool_size = 2 input_shape = (512, 512, 1) # 1 channel, grayscale image model = Sequential() model.add(Convolutio

浏览 23提问于2021-12-11得票数 0

1回答

如何在使用PyTorch教程代码时将输入类型(图像)更改为列表或数组

我已经搜索了使用列表或数组输入数据来训练DQN代码的代码。但我找不到任何密码。目前，我参考了火炬强化学习教程(DQN)。但是，此代码使用图像输入数据。我想知道如何将图像输入数据更改为列表或数组输入数据。 (我需要帮助解决我使用列表输入数据的研究。列表输入数据形状为1×9。)

浏览 3提问于2019-08-30得票数 0

回答已采纳

2回答

ValueError:检查输入时出错:期望flatten_input具有形状(1，4)，但得到与形状(1，2)相同的数组

、、、、

我对RL相当陌生，我真的不明白为什么我会犯这个错误。 import random import numpy as np import numpy as np from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Flatten from tensorflow.keras.optimizers import Adam from rl.agents import DQNAgent from rl.policy import BoltzmannQPolicy from rl.

浏览 21提问于2022-10-06得票数 0

1回答

删除最早的DQN经验可以吗

、、、

我已经创建了一个最大内存大小为100000的DQN。我有一个函数，如果内存中最旧的元素大于最大大小，它就会删除它。当我运行它200集的时候，我注意到在125集的时候内存已经满了。我的DQN可以删除剩余剧集的最旧经验吗？

浏览 20提问于2020-05-27得票数 0

回答已采纳

1回答

DQN的最后一集训练和测试有什么区别？

、、、

DQN训练模式的最后一集跑与测试跑有什么区别？有什么不同，比训练和调整超参数，我们测试一集，没有任何探索？这意味着测试模式类似于n+1中的训练模式，而不需要探索(而我们为n集进行训练)，对吗？为什么在DQN的一些测试代码中，他们测试多集？

浏览 0提问于2018-09-29得票数 1

回答已采纳

1回答

迭代地用另一个数据帧更新数据格式的值

、

我有一个主要的df： print(df) item dt_op 0 product_1 2019-01-08 1 product_2 2019-02-08 2 product_1 2019-01-08 ... 以及第一个部分的子集，它只包含一个产品和两个额外的列： print(df_1) item dt_op DQN_Pred DQN_Inv 0 product_1 2019-01-08 6 7.0 2 prod

浏览 1提问于2019-08-24得票数 1

回答已采纳

1回答

如何在Google (笔记本)中传递所需的参数

、、

我使用google来执行。在下面的代码中，默认情况下将传递所有参数。我可以将args作为空列表传递，从最后一行可以看到： DEFAULT_ENV_NAME = "PongNoFrameskip-v4" MEAN_REWARD_BOUND = 19.5 parser.add_argument("--cuda", default=True, action="store_true", help="Enable cuda") parser.add_argument("--env", default=D

浏览 4提问于2020-11-30得票数 1

7回答

如何实现深度强化学习（DQN）?

、、

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3330提问于2018-10-10

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐