RLlib训练的一次迭代中的时间步数

、、、

我是第一次接触强化学习，我正在使用RLlib在OpenAI健身房中处理自定义环境的RL。在创建自定义环境时，是否需要在__init__()方法中指定剧集数？ALso，当我用 trainer.train() 一次迭代需要多少时间步长？是否等于自定义环境中定义的剧集数？谢谢。

浏览 27提问于2020-06-04得票数 5

1回答

降低多智能体环境中单个智能体的动作采样频率

、、、

我是第一次使用rllib，并试图训练一个自定义的多代理RL环境，并希望在它上面训练几个PPO代理。我需要解决的实现问题是如何改变一个特殊代理的训练，使得这个代理每X个时间步才采取一个行动。每X个时间步只调用compute_action()是最好的吗？或者，在其他步骤中，屏蔽策略选择，以便它们必须重新采样操作，直到调用No-Op？或者将输入到环境<

浏览 8提问于2020-07-14得票数 0

1回答

Rllib OfflineData制备SAC的研究

、、

我有一些离线经验：(s，a，r，s')，它们是由启发式生成的。我想在培训SAC代理时使用这些工具。在使用时，使用示例SAC准备数据时会出现错误。这是一个，其中的问题暴露在pendulum V0环境中。除了作为离线数据生成的体验之外。我能否仅使用SAC的离线体验(s，a，r，s')？谢谢。

浏览 2提问于2021-01-18得票数 1

1回答

Ray:在python脚本中多次调用tune.run()时的内存管理

、、、

我有一个python脚本，它使用ray和rllib等库训练强化学习模型。该脚本使用检查点迭代地更新rllib.PPO模型。在每次迭代中，我都会重新定义配置并调用tune.run()，其中我将上一次迭代的检查点提供给restore变量。对于每个对tune.run()的调用，我只请求一个worker。问题是内存增长很快，直到ray抱怨工作程序没有足够的内存并停止工作。使用htop，我可以看到我的

浏览 8提问于2019-11-15得票数 1

1回答

Ray RLllib:外部使用的导出策略

、、

我有一个基于PPO策略的模型，我在一些标准的健身房环境中使用Ray Tune API与RLLib一起训练这个模型(没有花哨的预处理)。我保存了模型检查点，我可以从中加载和恢复以供进一步培训。现在，我想要将我的模型导出到一个理想情况下不依赖Ray或RLLib的系统上。有没有简单的方法可以做到这一点？我知道在rllib.policy.tf_policy类中有一个接口export_model，但它似乎不太

浏览 18提问于2020-05-25得票数 3

1回答

Matlab神经网络训练

、、

更好的方法是修改训练结构中的历元，还是将训练功能循环起来？

浏览 3提问于2014-12-22得票数 0

回答已采纳

1回答

卷积神经网络中的训练步骤是否控制迭代次数？

通过使用卷积神经网络，我必须训练100000个样本，批次大小为100，其中训练步长为4000。如果我第一次传递了100个样本，它将被视为一次迭代。我希望运行10000次迭代的代码。如果我设置了训练第1000步，这是否意味着我完成了10000次迭代？

浏览 0提问于2017-03-26得票数 0

2回答

tf.contrib.learn.LinearRegressor为具有一个特性的数据建立了意外的坏模型。

、、

我正在为来自的数据构建一个简单的线性回归器。数据包括一些人的体重和身高值。(input_fn=prepare_full_input), linewidth=3)lr_updated = linear_model.LinearRegression() lr_updated.fit(weight_filtered_reshaped,

浏览 0提问于2016-11-22得票数 4

回答已采纳

1回答

LSTM还记得以前的窗口吗?还是隐藏状态重置？

、、、

我正在训练LSTM来预测一个时刻表的下一个值。假设我有具有给定形状的训练数据( 2345，95)，并且总共有15个带有此数据的文件，这意味着我有2345个窗口，它们之间有50%的重叠(时间序列被划分为窗口)。每个窗口有95个时间步骤。我曾见过类似的问题，如或，但我要么不太明白这个解释，要么我不确定是否解释了我想要的东西。我正在寻找更多关于LSTM体系结构中的全部内存/隐藏状态重置的

浏览 9提问于2022-05-19得票数 0

回答已采纳

2回答

在单一时代中到底发生了什么，向前还是向后传递，或者两者兼而有之？

、、、、

例如,批量大小为25，纪元= 10 纪元1：|还是错了？所以，10* 40 = 400，所以只传播400个值？

浏览 4提问于2020-03-07得票数 0

1回答

如果DQN测试的奖励低于DQN最小化问题训练的奖励，是否可以接受？

、、

如果我们训练一个DQN超过40000-60000集的500个时间步调。在过去的100步训练中，在测试过程中，奖励的平均值约为奖励的1.1倍。越多的时间步骤应该更稳定？？时间步数的作用是什么？例如，在最后100次的训练中，

浏览 0提问于2018-10-14得票数 0

1回答

使用resnet faster r-cnn实现Tensorflow对象API的最大迭代

、、

我正在使用ResNet101 Faster R-CNN的教程训练牛津数据集。我的步数已经超过1300,000，而且还没有停止。，但我对TensorFlow对象检测接口不太确定。除了input_path和fi

浏览 8提问于2017-08-04得票数 1

回答已采纳

2回答

如何在星火集群环境下有效地训练word2vec模型？

、、

我想在我的星团上训练关于10G新闻语料库的word2vec模型。以下是我的星星团的心声：如上图所示，只有100%的cpu用于一名工人，其他三名工人没有使用(所以没有粘贴他们的图片)，刚才我如何训练一个关于2G新闻语料库的word2vec模型，大约需要6小时，所以我想知道如何更有效地训练这个模型spark.akka.frameSize=2000 \ -

浏览 7提问于2015-12-20得票数 3

1回答

深层Q学习agent找到解决方案后又发散

、、

我正在努力训练一个DQN代理来解决AI健身房的Cartpole-v0环境.我从这个人的开始，只是为了获得一些亲身体验。我注意到的是，在训练过程中，经过很多次训练，特工找到了解决方案，并且能够使杆子保持在最大的时间步数内。然而，经过进一步的训练，政策似乎变得更加随机，它再也不能保持杆子直立，进出一个好的政策。我对此很困惑，为什么进

浏览 2提问于2020-06-23得票数 0

回答已采纳

1回答

如何在MATLAB中增加每个历次的迭代次数？

、、、

我正在使用MATLAB训练一个深度学习网络，并希望增加每个时代的迭代次数。options = trainingOptions('sgdm', ...'Plots','training-progress'); 我得到以下情况，每一个历次的迭代次数自动设置为1。因此，一个时期需要64个训练示例中的1个及格。我如何将其增加到，例如，每一时期迭代

浏览 0提问于2018-12-03得票数 0

回答已采纳

8回答

在TensorFlow中，步骤和时间有什么区别？

、

在大多数模型中，都有一个steps参数，指示要运行数据的步骤数。但我发现在大多数实际应用中，我们也执行了拟合函数N个历元。 1次跑1000步和10次跑100步有什么区别？在实践中哪一个更好？在连续的时代之间有任何逻辑变化吗？数据洗牌？

浏览 7提问于2016-07-12得票数 179

1回答

带降维的有效numpy数组随机视图

、

对于计算机视觉训练，随机裁剪经常被用作数据增强技术。在每一次迭代中，产生一批随机作物，并将其输入正在训练的网络。这需要有效率，就像在每次训练迭代中所做的那样。如果数据维数太多，则可能还需要随机维数选择。例如，可以在视频中选择随机帧。数据甚至可以有4个维度(3在空间+时间)，或更多。如何编写一个有效的低维随机视图生成器？从3D数据中获取2D视图<

浏览 1提问于2017-09-22得票数 1

1回答

基于验证集上最后或最优迭代的模型选择

、、

这是一个非常基本的问题，但到目前为止我还没有找到令人满意的答案。在训练神经网络时，必须选择不同的历元数。通常的建议是，只要验证集上的损失减少，就进行培训。因此，对我来说，找到停止训练和获得最佳模型的最可靠方法是，采取非常多的时代，选择最好的验证损失(不管是最后一次迭代，还是更有可能的，介于两者之间)。当然，一个缺点是训练

浏览 0提问于2020-04-09得票数 0

1回答

多层神经网络中一个随机层的权值更新？

、、、

在采用反向传播的多层神经网络训练中，每一次迭代都会更新各层的权值.它将如何影响培训时间？模型性能(模型的泛化能力)是否受到这类培训的影响？我的直觉是，泛化能力是一样的，训练时间也会减少。如果我错了，请改正。

浏览 1提问于2018-12-11得票数 0

回答已采纳

1回答

在Keras中LSTM模型训练中一个时期的步数的重要性

、、、、

在相同的数据上训练的两个LSTM模型A和B之间有什么区别，但每个时期的批次是随机洗牌的，A每个时期有14个步骤，B每个时期有132个步骤？哪一个会在验证中表现得更好？

浏览 41提问于2020-03-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

降低多智能体环境中单个智能体的动作采样频率

Rllib OfflineData制备SAC的研究

Ray:在python脚本中多次调用tune.run()时的内存管理

Ray RLllib:外部使用的导出策略

Matlab神经网络训练

卷积神经网络中的训练步骤是否控制迭代次数？

tf.contrib.learn.LinearRegressor为具有一个特性的数据建立了意外的坏模型。

LSTM还记得以前的窗口吗?还是隐藏状态重置？

在单一时代中到底发生了什么，向前还是向后传递，或者两者兼而有之？

如果DQN测试的奖励低于DQN最小化问题训练的奖励，是否可以接受？

使用resnet faster r-cnn实现Tensorflow对象API的最大迭代

如何在星火集群环境下有效地训练word2vec模型？

深层Q学习agent找到解决方案后又发散

如何在MATLAB中增加每个历次的迭代次数？

在TensorFlow中，步骤和时间有什么区别？

带降维的有效numpy数组随机视图

基于验证集上最后或最优迭代的模型选择

多层神经网络中一个随机层的权值更新？

在Keras中LSTM模型训练中一个时期的步数的重要性

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐