腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5405)
视频
沙龙
1
回答
是否
可以
在
训练
前
和
训练
期间
修改
OpenAI
健身房
状态
?
、
、
、
我想要做的是
修改
一个环境,例如,以Super Mario Bros
健身房
环境为例,模糊智能体
训练
的图像,看看强化学习智能体
是否
仍然能够在这些“模糊”
状态
上学习。
OpenAI
使这样的事情成为可能吗?如何添加
健身房
环境预处理步骤?
浏览 38
提问于2020-11-11
得票数 1
回答已采纳
1
回答
Tensorflow给出"ValueError:检查输入时的错误“
、
、
、
我试图解决的
OpenAI
健身房
突破-V0与深Q网络代理。每次当我的经纪人到达的时候:Tensorflow抛出以下错误:state
前
仅1行打印传入predict(state)数组的形状时,它将确认state的形状为(33600,)。
在
显示此错误之前,该模型能够
在
训练
循环中使用完全相同的数据(但批处理)进行predict_on_batch
浏览 2
提问于2021-06-03
得票数 0
回答已采纳
1
回答
一个更大的动作空间
是否
需要更长的时间来
训练
一个RL特工?
、
我正在与
openai
健身房
玩,试图更好地理解强化学习。您
可以
修改
的一个代理参数是动作空间,即代理
可以
在
每个
状态
下在环境中采取的特定操作。
在
我的研究中,我没有发现有任何地方明确指出,如果操作空间更大,RL模型,特别是PPO2,将需要更长的时间来
训练
。(例如,一个有100个可能行动的代理人
训练
一集比一个有两个可能行动的代理人花费更长的时间吗?)直觉上,我会认为一个代理人的行为越多,它在每个
状态
下的“选择
浏览 0
提问于2019-07-24
得票数 1
回答已采纳
1
回答
Python强化学习-元组观察空间
、
、
、
、
我创建了一个自定义的
openai
健身房
环境,它有一个离散的动作空间
和
一个有点复杂的
状态
空间。
状态
空间被定义为元组,因为它结合了一些连续的维度
和
其他离散的维度: import gym def我很幸运地使用keras-rl
训练
了一个代理,特别是DQNAgent,但是keras-rl没有得到足够的支持,而且文档也很少。对于
可以
处理这种观察空间的RL包,
浏览 73
提问于2019-10-09
得票数 4
回答已采纳
2
回答
使用多个股票交易记录的数据集的强化学习?
、
、
、
、
这是一个一般性的问题,也许有人
可以
给我指出正确的方向。 我正在使用Python3.6/Tensorflow进行强化学习,并且我已经找到/调整了我自己的模型,以基于特定股票的历史数据进行
训练
。我的问题是,有没有可能在不止一个股票的数据集上
训练
这个模型?我读过的每一篇关于时间序列预测
和
RL的机器学习文章都使用一个数据集进行
训练
和
测试,但我的目标是
在
一堆不同价格的报价器上
训练
一个模型,希望该模型
可以
识别相似的价格模式,而
浏览 24
提问于2018-12-30
得票数 1
1
回答
TensorFlow模型拟合与train_on_batch的区别
、
、
、
、
我正在构建一个香草DQN模型来玩
OpenAI
健身房
Cartpole游戏。然而,
在
训练
步骤中,我输入
状态
作为输入,目标Q值作为标签,如果我使用model.fit(x=states, y=target_q),它工作得很好,代理最终
可以
很好地玩游戏,但是如果我使用model.train_on_batch我想知道fit
和
train_on_batch有什么不同?据我所知,fit
在
幕后调用批处理大小为32的train_on_batch,这应该没有区别,因为指定批处
浏览 56
提问于2020-06-29
得票数 2
回答已采纳
5
回答
在
奖励总是-1的环境中,DQN是如何工作的?
、
、
、
、
考虑到
OpenAI
Gym环境总是返回-1.0作为奖励(即使当目标实现),我不明白DQN如何与经验-重播收敛,但我知道,因为我有证明它。通过工作,我的意思是,当我
训练
代理人时,代理人很快(
在
300-500集内)就学会了如何解决登山车问题。下面是我受过
训练
的特工的一个例子。 我的理解是,最终需要找到一个“稀疏的奖励”。这没有回答我的问题,因为
在
DQN
和
经验重播中,那些返回(-1000,-200)永远不会出现在体验重放内存中。所有的记忆都是形式的元组(
状态
、动作、奖励
浏览 0
提问于2019-01-25
得票数 3
5
回答
如何设置
openai
-
健身房
环境,从特定的
状态
开始,而不是`env.reset()`?
、
、
今天,当我试图
在
openai
-
健身房
环境下实现一个rl代理时,我发现了一个问题,似乎所有的代理都是从最初始的
状态
训练
出来的:env.reset(),即因此,很自然,代理
可以
沿着路由但是,一个代理如何从一个特定的
状态
开始,就像一个中间
浏览 0
提问于2019-09-08
得票数 7
回答已采纳
1
回答
强化学习:易于学习的
状态
表示
我创建了一个简单的
OpenAI
健身房
环境,它包括:一只在世界上以恒定的速度缓慢地随机移动的兔子这些行动是我
在
解决这个环境上有困难。即使经过长时间的
训练
,在这方面
训练
的特工的得分也只略好于随机代理人。我尝试过深度Q-学习(与经验回放,目标网络)加强(有
和
没有基线)
和
PPO。然而,我意识到
状态
表示可能会使问题更加困难,因为六个变量
浏览 0
提问于2018-10-02
得票数 3
回答已采纳
2
回答
为什么预
训练
的ResNet18具有比
训练
更高的验证精度?
、
、
、
、
对于PyTorch关于执行计算机视觉()的迁移学习的教程,我们
可以
看到比
训练
精度更高的验证精度。将相同的步骤应用于我自己的数据集,我看到了类似的结果。为什么会这样呢?
浏览 2
提问于2019-11-17
得票数 0
1
回答
使用无外部库的Q学习模型
、
、
、
、
我正在尝试
在
一个基于吃豆人的游戏中使用强化学习。我想使用Q学习技术来生成我的代理的操作。我计划使用
openai
-gym
和
keras库来
训练
我的模型,但我希望有一种方法
可以
保存我的模型并使用它,而不使用open-gym
和
keras库(
在
它被
训练
之后)。据我所知,Q学习
可以
用来生成
状态
-动作对,我想知道
是否
可以
将这些组合的所有可能组合保存到Pacman这样的可解系统中。这似乎有点不切实
浏览 2
提问于2019-04-08
得票数 0
1
回答
Tensorflow带丢弃的
前
向传递
、
、
、
、
这涉及到
在
dropout激活的情况下,
在
训练
和
测试
期间
运行我的网络的几个
前
向传球。Dropout层似乎只
在
训练
时激活,而不是
在
测试时激活。
在
Tensorflow中,只需调用一些函数或
修改
一些参数就
可以
做到这一点吗?
浏览 0
提问于2018-02-06
得票数 2
回答已采纳
1
回答
深度Q学习
是否
适合解决Cart极任务?
、
、
、
最近,我一直试图
训练
一个Deep网络来解决
OpenAI
健身房
的CartPol-V0,解决这个问题意味着
在
连续100集中平均得分至少达到195.0分。我使用的是2层神经网络,经验回放的内存包含100万次经验,epsilon贪婪策略,RMSProp优化器
和
Huber损失函数。 在这种情况下,解决任务需要几千集(> 30k)。学习有时也是相当不稳定的。还有哪些替代方案(或对我的DQN的改进)
可以
提供更好的结果?
浏览 2
提问于2017-03-13
得票数 2
1
回答
为什么不可
训练
的参数
在
模型摘要中为零,尽管加载了模型的权重?
、
、
、
、
我用了命令
在
训练
模型后保存参数。model.load_state_dict(torch.load(MODEL_PATH, map_location=map_location))summary(model,(1,224,224) ) 要加载预先
训练
过的权重,不可
训练
参数的数量为0,如所附屏幕截图所示。
浏览 6
提问于2022-03-21
得票数 1
1
回答
openAI
健身房
将数据保存为时间序列
openAI
健身房
环境能够将结果打印到屏幕上,还
可以
渲染视频。
是否
有现有的命令或包装器/监视器来保存
状态
和
操作的时间序列数据?我想在时频域中分析它的性能。我想我
可以
在
每次动画更新时将数据写入文件,但我很好奇别人是如何做到这一点的。
浏览 11
提问于2020-08-22
得票数 0
2
回答
使用Tensorflow进行在线学习
、
、
、
我正在使用tensorflow使用user_features、item_features
和
交互来
训练
模型。当前实现我希望对此有一些解决方案。 谢谢
浏览 1
提问于2018-09-03
得票数 4
2
回答
为什么DNN的预
训练
没有
在
keras中指定?
、
、
、
问题更多的是DNN的
训练
算法,而不是软件内核。 据我所知,深层神经网络是由于
训练
算法的改进而工作的。从20世纪80年代开始,BP算法已被用于神经网络的
训练
,但当网络深度较大时,会出现过拟合问题。大约10年
前
,Hinton对该算法进行了改进,首先使用未标记数据对网络进行预
训练
,然后再使用BP算法。预
训练
对避免过拟合起着重要作用.然而,当我开始尝试Keras时,使用SGD算法的mnist DNN的示例(在下面)并没有提到预
训练
过程,从而获得了非常高的预测精度。所以,我开始想
浏览 4
提问于2016-05-16
得票数 5
回答已采纳
1
回答
使用LSTM进行预测并使用最终隐藏
状态
、
、
、
、
如果我将这个时间序列划分为training with size (10,35,2)
和
test (10,15,2),其中我使用test作为我的预测的验证集(以了解
训练
的网络预测有多好),由于lstm在这种情况下是无
状态
的,因此
在
训练
期间
的批次之间会刷新(重置)
状态
(假设batch size = 1-->一次
训练
一个样本)。我的主要问题是,在对大小为(10,15,2)的测试集进行预测
期间
,我
是否
应该使用我
训
浏览 14
提问于2021-01-08
得票数 0
1
回答
有没有一种方法来区分AllenNLP中的验证
和
评估?
有时,我们可能希望
在
验证(即,
在
训练
期间
对dev集进行验证)
和
最终评估
期间
有一些细微的不同行为。我不确定
是否
有一种简单的方法来通知我们的模型,它是由train命令还是evaluate命令调用的。现在我能做的就是使用self.training来区分它们
和
训练
,但是验证
和
评估都有self.training == False,这使得我不可能区分它们。我的意思是,如果它是我自己的pytorch框架,那就非常容易做到,因为我<
浏览 7
提问于2020-10-03
得票数 0
1
回答
在
Keras的BatchNormalization层中,attrubutes‘可
训练
’
和
‘
训练
’有什么区别?
、
、
、
、
,即它的内部
状态
在
训练
期间
不会改变:它的可
训练
权重不会在fit()或train_on_batch()
期间
被更新,它的
状态
更新也不会运行。通常,这并不一定意味着该层以推理模式运行(通常由调用层时
可以
传递的
训练
参数控制)。“冻结
状态
”
和
“推理模式”是两个独立的概念。但是,对于BatchNormalization层,
在
层上设置trainable = False意味着层随后将以推理模式运行
浏览 12
提问于2020-07-04
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
无需写代码能力,手搓最简单BabyGPT模型:前特斯拉AI总监新作
前腾讯、谷歌团队入局家庭健身,寻找中国版Peloton,Fiture获红杉600万美元首轮融资
世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用
【聚焦2023数博会】贵阳:大数据让城市生活更智慧
绑手指、蒙布也能行,OpenAI让机器人单手还原魔方
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券