是否可以在训练前和训练期间修改OpenAI健身房状态？

、、、

我想要做的是修改一个环境，例如，以Super Mario Bros健身房环境为例，模糊智能体训练的图像，看看强化学习智能体是否仍然能够在这些“模糊”状态上学习。 OpenAI使这样的事情成为可能吗？如何添加健身房环境预处理步骤？

浏览 38提问于2020-11-11得票数 1

回答已采纳

1回答

Tensorflow给出"ValueError:检查输入时的错误“

、、、

我试图解决的OpenAI健身房突破-V0与深Q网络代理。每次当我的经纪人到达的时候：Tensorflow抛出以下错误：state前仅1行打印传入predict(state)数组的形状时，它将确认state的形状为(33600,)。在显示此错误之前，该模型能够在训练循环中使用完全相同的数据(但批处理)进行predict_on_batch

浏览 2提问于2021-06-03得票数 0

回答已采纳

1回答

一个更大的动作空间是否需要更长的时间来训练一个RL特工？

、

我正在与openai健身房玩，试图更好地理解强化学习。您可以修改的一个代理参数是动作空间，即代理可以在每个状态下在环境中采取的特定操作。在我的研究中，我没有发现有任何地方明确指出，如果操作空间更大，RL模型，特别是PPO2，将需要更长的时间来训练。(例如，一个有100个可能行动的代理人训练一集比一个有两个可能行动的代理人花费更长的时间吗？)直觉上，我会认为一个代理人的行为越多，它在每个状态下的“选择

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

Python强化学习-元组观察空间

、、、、

我创建了一个自定义的openai健身房环境，它有一个离散的动作空间和一个有点复杂的状态空间。状态空间被定义为元组，因为它结合了一些连续的维度和其他离散的维度： import gym def我很幸运地使用keras-rl训练了一个代理，特别是DQNAgent，但是keras-rl没有得到足够的支持，而且文档也很少。对于可以处理这种观察空间的RL包，

浏览 73提问于2019-10-09得票数 4

回答已采纳

2回答

使用多个股票交易记录的数据集的强化学习？

、、、、

这是一个一般性的问题，也许有人可以给我指出正确的方向。我正在使用Python3.6/Tensorflow进行强化学习，并且我已经找到/调整了我自己的模型，以基于特定股票的历史数据进行训练。我的问题是，有没有可能在不止一个股票的数据集上训练这个模型？我读过的每一篇关于时间序列预测和RL的机器学习文章都使用一个数据集进行训练和测试，但我的目标是在一堆不同价格的报价器上训练一个模型，希望该模型可以识别相似的价格模式，而

浏览 24提问于2018-12-30得票数 1

1回答

TensorFlow模型拟合与train_on_batch的区别

、、、、

我正在构建一个香草DQN模型来玩OpenAI健身房Cartpole游戏。然而，在训练步骤中，我输入状态作为输入，目标Q值作为标签，如果我使用model.fit(x=states, y=target_q)，它工作得很好，代理最终可以很好地玩游戏，但是如果我使用model.train_on_batch我想知道fit和train_on_batch有什么不同？据我所知，fit在幕后调用批处理大小为32的train_on_batch，这应该没有区别，因为指定批处

浏览 56提问于2020-06-29得票数 2

回答已采纳

5回答

在奖励总是-1的环境中，DQN是如何工作的？

、、、、

考虑到OpenAI Gym环境总是返回-1.0作为奖励(即使当目标实现)，我不明白DQN如何与经验-重播收敛，但我知道，因为我有证明它。通过工作，我的意思是，当我训练代理人时，代理人很快(在300-500集内)就学会了如何解决登山车问题。下面是我受过训练的特工的一个例子。我的理解是，最终需要找到一个“稀疏的奖励”。这没有回答我的问题，因为在DQN和经验重播中，那些返回(-1000，-200)永远不会出现在体验重放内存中。所有的记忆都是形式的元组(状态、动作、奖励

浏览 0提问于2019-01-25得票数 3

5回答

如何设置openai-健身房环境，从特定的状态开始，而不是`env.reset()`？

、、

今天，当我试图在openai-健身房环境下实现一个rl代理时，我发现了一个问题，似乎所有的代理都是从最初始的状态训练出来的：env.reset()，即因此，很自然，代理可以沿着路由但是，一个代理如何从一个特定的状态开始，就像一个中间

浏览 0提问于2019-09-08得票数 7

回答已采纳

1回答

强化学习:易于学习的状态表示

我创建了一个简单的OpenAI健身房环境，它包括：一只在世界上以恒定的速度缓慢地随机移动的兔子这些行动是我在解决这个环境上有困难。即使经过长时间的训练，在这方面训练的特工的得分也只略好于随机代理人。我尝试过深度Q-学习(与经验回放，目标网络)加强(有和没有基线)和PPO。然而，我意识到状态表示可能会使问题更加困难，因为六个变量

浏览 0提问于2018-10-02得票数 3

回答已采纳

2回答

为什么预训练的ResNet18具有比训练更高的验证精度？

、、、、

对于PyTorch关于执行计算机视觉()的迁移学习的教程，我们可以看到比训练精度更高的验证精度。将相同的步骤应用于我自己的数据集，我看到了类似的结果。为什么会这样呢？

浏览 2提问于2019-11-17得票数 0

1回答

使用无外部库的Q学习模型

、、、、

我正在尝试在一个基于吃豆人的游戏中使用强化学习。我想使用Q学习技术来生成我的代理的操作。我计划使用openai-gym和keras库来训练我的模型，但我希望有一种方法可以保存我的模型并使用它，而不使用open-gym和keras库(在它被训练之后)。据我所知，Q学习可以用来生成状态-动作对，我想知道是否可以将这些组合的所有可能组合保存到Pacman这样的可解系统中。这似乎有点不切实

浏览 2提问于2019-04-08得票数 0

1回答

Tensorflow带丢弃的前向传递

、、、、

这涉及到在dropout激活的情况下，在训练和测试期间运行我的网络的几个前向传球。Dropout层似乎只在训练时激活，而不是在测试时激活。在Tensorflow中，只需调用一些函数或修改一些参数就可以做到这一点吗？

浏览 0提问于2018-02-06得票数 2

回答已采纳

1回答

深度Q学习是否适合解决Cart极任务？

、、、

最近，我一直试图训练一个Deep网络来解决OpenAI健身房的CartPol-V0，解决这个问题意味着在连续100集中平均得分至少达到195.0分。我使用的是2层神经网络，经验回放的内存包含100万次经验，epsilon贪婪策略，RMSProp优化器和Huber损失函数。在这种情况下，解决任务需要几千集(> 30k)。学习有时也是相当不稳定的。还有哪些替代方案(或对我的DQN的改进)可以提供更好的结果？

浏览 2提问于2017-03-13得票数 2

1回答

为什么不可训练的参数在模型摘要中为零，尽管加载了模型的权重？

、、、、

我用了命令在训练模型后保存参数。model.load_state_dict(torch.load(MODEL_PATH, map_location=map_location))summary(model,(1,224,224) ) 要加载预先训练过的权重，不可训练参数的数量为0，如所附屏幕截图所示。

浏览 6提问于2022-03-21得票数 1

1回答

openAI健身房将数据保存为时间序列

openAI健身房环境能够将结果打印到屏幕上，还可以渲染视频。是否有现有的命令或包装器/监视器来保存状态和操作的时间序列数据？我想在时频域中分析它的性能。我想我可以在每次动画更新时将数据写入文件，但我很好奇别人是如何做到这一点的。

浏览 11提问于2020-08-22得票数 0

2回答

使用Tensorflow进行在线学习

、、、

我正在使用tensorflow使用user_features、item_features和交互来训练模型。当前实现我希望对此有一些解决方案。谢谢

浏览 1提问于2018-09-03得票数 4

2回答

为什么DNN的预训练没有在keras中指定？

、、、

问题更多的是DNN的训练算法，而不是软件内核。据我所知，深层神经网络是由于训练算法的改进而工作的。从20世纪80年代开始，BP算法已被用于神经网络的训练，但当网络深度较大时，会出现过拟合问题。大约10年前，Hinton对该算法进行了改进，首先使用未标记数据对网络进行预训练，然后再使用BP算法。预训练对避免过拟合起着重要作用.然而，当我开始尝试Keras时，使用SGD算法的mnist DNN的示例(在下面)并没有提到预训练过程，从而获得了非常高的预测精度。所以，我开始想

浏览 4提问于2016-05-16得票数 5

回答已采纳

1回答

使用LSTM进行预测并使用最终隐藏状态

、、、、

如果我将这个时间序列划分为training with size (10,35,2)和test (10,15,2)，其中我使用test作为我的预测的验证集(以了解训练的网络预测有多好)，由于lstm在这种情况下是无状态的，因此在训练期间的批次之间会刷新(重置)状态(假设batch size = 1-->一次训练一个样本)。我的主要问题是，在对大小为(10,15,2)的测试集进行预测期间，我是否应该使用我训

浏览 14提问于2021-01-08得票数 0

1回答

有没有一种方法来区分AllenNLP中的验证和评估？

有时，我们可能希望在验证(即，在训练期间对dev集进行验证)和最终评估期间有一些细微的不同行为。我不确定是否有一种简单的方法来通知我们的模型，它是由train命令还是evaluate命令调用的。现在我能做的就是使用self.training来区分它们和训练，但是验证和评估都有self.training == False，这使得我不可能区分它们。我的意思是，如果它是我自己的pytorch框架，那就非常容易做到，因为我<

浏览 7提问于2020-10-03得票数 0

1回答

在Keras的BatchNormalization层中，attrubutes‘可训练’和‘训练’有什么区别？

、、、、

，即它的内部状态在训练期间不会改变:它的可训练权重不会在fit()或train_on_batch()期间被更新，它的状态更新也不会运行。通常，这并不一定意味着该层以推理模式运行(通常由调用层时可以传递的训练参数控制)。“冻结状态”和“推理模式”是两个独立的概念。但是，对于BatchNormalization层，在层上设置trainable = False意味着层随后将以推理模式运行

浏览 12提问于2020-07-04得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Tensorflow给出"ValueError:检查输入时的错误“

一个更大的动作空间是否需要更长的时间来训练一个RL特工？

Python强化学习-元组观察空间

使用多个股票交易记录的数据集的强化学习？

TensorFlow模型拟合与train_on_batch的区别

在奖励总是-1的环境中，DQN是如何工作的？

如何设置openai-健身房环境，从特定的状态开始，而不是`env.reset()`？

强化学习:易于学习的状态表示

为什么预训练的ResNet18具有比训练更高的验证精度？

使用无外部库的Q学习模型

Tensorflow带丢弃的前向传递

深度Q学习是否适合解决Cart极任务？

为什么不可训练的参数在模型摘要中为零，尽管加载了模型的权重？

openAI健身房将数据保存为时间序列

使用Tensorflow进行在线学习

为什么DNN的预训练没有在keras中指定？

使用LSTM进行预测并使用最终隐藏状态

有没有一种方法来区分AllenNLP中的验证和评估？

在Keras的BatchNormalization层中，attrubutes‘可训练’和‘训练’有什么区别？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐