腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
RLlib
训练
的
一次
迭代
中
的
时间
步
数
、
、
、
我是第
一次
接触强化学习,我正在使用
RLlib
在OpenAI健身房
中
处理自定义环境
的
RL。在创建自定义环境时,是否需要在__init__()方法中指定剧集数?ALso,当我用 trainer.train()
一次
迭代
需要多少
时间
步长?是否等于自定义环境
中
定义
的
剧集数?谢谢。
浏览 27
提问于2020-06-04
得票数 5
1
回答
降低多智能体环境
中
单个智能体
的
动作采样频率
、
、
、
我是第
一次
使用
rllib
,并试图
训练
一个自定义
的
多代理RL环境,并希望在它上面
训练
几个PPO代理。我需要解决
的
实现问题是如何改变一个特殊代理
的
训练
,使得这个代理每X个
时间
步
才采取一个行动。每X个
时间
步
只调用compute_action()是最好
的
吗?或者,在其他步骤
中
,屏蔽策略选择,以便它们必须重新采样操作,直到调用No-Op?或者将输入到环境<
浏览 8
提问于2020-07-14
得票数 0
1
回答
Rllib
OfflineData制备SAC
的
研究
、
、
我有一些离线经验:(s,a,r,s'),它们是由启发式生成
的
。我想在培训SAC代理时使用这些工具。在使用时,使用示例SAC准备数据时会出现错误。这是一个,其中
的
问题暴露在pendulum V0环境
中
。除了作为离线数据生成
的
体验之外。我能否仅使用SAC
的
离线体验(s,a,r,s')? 谢谢。
浏览 2
提问于2021-01-18
得票数 1
1
回答
Ray:在python脚本
中
多次调用tune.run()时
的
内存管理
、
、
、
我有一个python脚本,它使用ray和
rllib
等库
训练
强化学习模型。该脚本使用检查点
迭代
地更新
rllib
.PPO模型。在每次
迭代
中
,我都会重新定义配置并调用tune.run(),其中我将上
一次
迭代
的
检查点提供给restore变量。对于每个对tune.run()
的
调用,我只请求一个worker。问题是内存增长很快,直到ray抱怨工作程序没有足够
的
内存并停止工作。使用htop,我可以看到我
的
浏览 8
提问于2019-11-15
得票数 1
1
回答
Ray RLllib:外部使用
的
导出策略
、
、
我有一个基于PPO策略
的
模型,我在一些标准
的
健身房环境中使用Ray Tune API与
RLLib
一起
训练
这个模型(没有花哨
的
预处理)。我保存了模型检查点,我可以从中加载和恢复以供进一
步
培训。现在,我想要将我
的
模型导出到一个理想情况下不依赖Ray或
RLLib
的
系统上。有没有简单
的
方法可以做到这一点?我知道在
rllib
.policy.tf_policy类中有一个接口export_model,但它似乎不太
浏览 18
提问于2020-05-25
得票数 3
1
回答
Matlab神经网络
训练
、
、
更好
的
方法是修改
训练
结构
中
的
历元,还是将
训练
功能循环起来?
浏览 3
提问于2014-12-22
得票数 0
回答已采纳
1
回答
卷积神经网络
中
的
训练
步骤是否控制
迭代
次数?
通过使用卷积神经网络,我必须
训练
100000个样本,批次大小为100,其中
训练
步长为4000。如果我第
一次
传递了100个样本,它将被视为
一次
迭代
。我希望运行10000次
迭代
的
代码。如果我设置了
训练
第1000
步
,这是否意味着我完成了10000次
迭代
?
浏览 0
提问于2017-03-26
得票数 0
2
回答
tf.contrib.learn.LinearRegressor为具有一个特性
的
数据建立了意外
的
坏模型。
、
、
我正在为来自
的
数据构建一个简单
的
线性回归器。数据包括一些人
的
体重和身高值。(input_fn=prepare_full_input), linewidth=3)lr_updated = linear_model.LinearRegression() lr_updated.fit(weight_filtered_reshaped,
浏览 0
提问于2016-11-22
得票数 4
回答已采纳
1
回答
LSTM还记得以前
的
窗口吗?还是隐藏状态重置?
、
、
、
我正在
训练
LSTM来预测一个时刻表
的
下一个值。假设我有具有给定形状
的
训练
数据( 2345,95),并且总共有15个带有此数据
的
文件,这意味着我有2345个窗口,它们之间有50%
的
重叠(
时间
序列被划分为窗口)。每个窗口有95个
时间
步骤。我曾见过类似的问题,如或,但我要么不太明白这个解释,要么我不确定是否解释了我想要
的
东西。我正在寻找更多关于LSTM体系结构
中
的
全部内存/隐藏状态重置
的
浏览 9
提问于2022-05-19
得票数 0
回答已采纳
2
回答
在单一时代
中
到底发生了什么,向前还是向后传递,或者两者兼而有之?
、
、
、
、
例如,批量大小为25,纪元= 10 纪元1:|还是错了?所以,10* 40 = 400,所以只传播400个值?
浏览 4
提问于2020-03-07
得票数 0
1
回答
如果DQN测试
的
奖励低于DQN最小化问题
训练
的
奖励,是否可以接受?
、
、
如果我们
训练
一个DQN超过40000-60000集
的
500个
时间
步调。在过去
的
100
步
训练
中
,在测试过程
中
,奖励
的
平均值约为奖励
的
1.1倍。越多
的
时间
步骤应该更稳定??
时间
步
数
的
作用是什么? 例如,在最后100次
的
训练
中
,
浏览 0
提问于2018-10-14
得票数 0
1
回答
使用resnet faster r-cnn实现Tensorflow对象API
的
最大
迭代
、
、
我正在使用ResNet101 Faster R-CNN
的
教程
训练
牛津数据集。我
的
步
数
已经超过1300,000,而且还没有停止。,但我对TensorFlow对象检测接口不太确定。除了input_path和fi
浏览 8
提问于2017-08-04
得票数 1
回答已采纳
2
回答
如何在星火集群环境下有效地
训练
word2vec模型?
、
、
我想在我
的
星团上
训练
关于10G新闻语料库
的
word2vec模型。以下是我
的
星星团
的
心声: 如上图所示,只有100%
的
cpu用于一名工人,其他三名工人没有使用(所以没有粘贴他们
的
图片),刚才我如何
训练
一个关于2G新闻语料库
的
word2vec模型,大约需要6小时,所以我想知道如何更有效地
训练
这个模型spark.akka.frameSize=2000 \ -
浏览 7
提问于2015-12-20
得票数 3
1
回答
深层Q学习agent找到解决方案后又发散
、
、
我正在努力
训练
一个DQN代理来解决AI健身房
的
Cartpole-v0环境.我从这个人
的
开始,只是为了获得一些亲身体验。我注意到
的
是,在
训练
过程
中
,经过很多次
训练
,特工找到了解决方案,并且能够使杆子保持在最大
的
时间
步
数
内。然而,经过进一
步
的
训练
,政策似乎变得更加随机,它再也不能保持杆子直立,进出一个好
的
政策。我对此很困惑,为什么进
浏览 2
提问于2020-06-23
得票数 0
回答已采纳
1
回答
如何在MATLAB
中
增加每个历次
的
迭代
次数?
、
、
、
我正在使用MATLAB
训练
一个深度学习网络,并希望增加每个时代
的
迭代
次数。options = trainingOptions('sgdm', ...'Plots','training-progress'); 我得到以下情况,每一个历次
的
迭代
次数自动设置为1。因此,一个时期需要64个
训练
示例
中
的
1个及格。我如何将其增加到,例如,每一时期
迭代
浏览 0
提问于2018-12-03
得票数 0
回答已采纳
8
回答
在TensorFlow
中
,步骤和
时间
有什么区别?
、
在大多数模型
中
,都有一个steps参数,指示要运行数据
的
步骤
数
。但我发现在大多数实际应用
中
,我们也执行了拟合函数N个历元。 1次跑1000
步
和10次跑100
步
有什么区别?在实践
中
哪一个更好?在连续
的
时代之间有任何逻辑变化吗?数据洗牌?
浏览 7
提问于2016-07-12
得票数 179
1
回答
带降维
的
有效numpy数组随机视图
、
对于计算机视觉
训练
,随机裁剪经常被用作数据增强技术。在每
一次
迭代
中
,产生一批随机作物,并将其输入正在
训练
的
网络。这需要有效率,就像在每次
训练
迭代
中所做
的
那样。如果数据维
数
太多,则可能还需要随机维
数
选择。例如,可以在视频中选择随机帧。数据甚至可以有4个维度(3在空间+
时间
),或更多。 如何编写一个有效
的
低维随机视图生成器?从3D数据
中
获取2D视图<
浏览 1
提问于2017-09-22
得票数 1
1
回答
基于验证集上最后或最优
迭代
的
模型选择
、
、
这是一个非常基本
的
问题,但到目前为止我还没有找到令人满意
的
答案。在
训练
神经网络时,必须选择不同
的
历元
数
。通常
的
建议是,只要验证集上
的
损失减少,就进行培训。因此,对我来说,找到停止
训练
和获得最佳模型
的
最可靠方法是,采取非常多
的
时代,选择最好
的
验证损失(不管是最后
一次
迭代
,还是更有可能
的
,介于两者之间)。当然,一个缺点是
训练
浏览 0
提问于2020-04-09
得票数 0
1
回答
多层神经网络中一个随机层
的
权值更新?
、
、
、
在采用反向传播
的
多层神经网络
训练
中
,每
一次
迭代
都会更新各层
的
权值.它将如何影响培训
时间
?模型性能(模型
的
泛化能力)是否受到这类培训
的
影响? 我
的
直觉是,泛化能力是一样
的
,
训练
时间
也会减少。如果我错了,请改正。
浏览 1
提问于2018-12-11
得票数 0
回答已采纳
1
回答
在Keras
中
LSTM模型
训练
中一个时期
的
步
数
的
重要性
、
、
、
、
在相同
的
数据上
训练
的
两个LSTM模型A和B之间有什么区别,但每个时期
的
批次是随机洗牌
的
,A每个时期有14个步骤,B每个时期有132个步骤?哪一个会在验证中表现得更好?
浏览 41
提问于2020-03-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
找出数组中只出现一次的数
每一次美眼技术迭代、飞跃,源于先行者一步一个脚印的累积
【WPS神技能】原来WPS-Word文档中的撤销/恢复步数还可以自己设置?
基于Horovod on Ray的弹性深度学习
Ray:为机器学习和大模型而生的分布式计算框架
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券