腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
保存
DDPG
模型
?
、
、
、
我尝试使用saver方法
保存
模型
(我使用
DDPG
类中的save函数来
保存
),但在恢复
模型
时,结果与我
保存
的结果相去甚远(当情节奖励为零时
保存
模型
,代码中的restor方法被注释掉)我的代码如下所示,其中包含所有功能for criticalpha = 0.01batch_size = 32 class
DDPG
env.ob
浏览 75
提问于2020-04-11
得票数 2
回答已采纳
1
回答
当使用强化学习
模型
ddpg
时,输入数据是序列数据。
当使用强化学习
模型
ddpg
时,输入数据是序列数据、高维(21维)状态和低维(1维)动作。这对
模型
的训练有什么负面影响吗?
如何
解决这个问题
浏览 39
提问于2021-01-23
得票数 0
1
回答
在Google Colab中
保存
训练的AI
模型
、
、
在Google colab中训练了一个双胞胎延迟
DDPG
代理10个小时后,我下载了python文件,以便在另一个平台上继续工作。然而,问题是当我
保存
python笔记本文件时,训练数据没有包括在内,因此训练数据丢失了。
如何
在不放弃训练的情况下
保存
文件,例如将其移动到Unity 3D环境中,这样我就不必重新训练座席。
浏览 2
提问于2019-10-29
得票数 1
1
回答
多线程算法中
如何
允许keras
模型
预测函数?
、
、
、
、
我的环境需要能够使用Keras(tenserflow)
模型
来预测某些事情。但在线程设置中不允许这样做。其中的预测看起来很简单,如下:label = np.argmax(model.predict(x.reshape(1,28,28,1)))from stable_baselines.
ddpg
.policiesimport MlpPolicy model_
ddpg
=
DDPG
(MlpPolicy
浏览 2
提问于2020-03-17
得票数 1
1
回答
为什么
DDPG
的政策目标是Q值本身?
有人能解释一下为什么
DDPG
的政策目标是Q(s,\mu(s))吗? 我对
DDPG
的理解是这样的。由于在连续空间中计算argmax_a Q(s,a)是很难的,因此
DDPG
使用了一种通用函数估计器(神经网络)来学习和预测实现maxQ(s,a)输出的最佳动作。那么,我的问题是,
DDPG
培训\mu(s)的实际目标是什么?我认为这应该是在给定状态s (argmax_aQ(s,a))时给出最高Q值的实际操作。这一政策
如何
才能学习到最佳行动呢?
浏览 0
提问于2019-08-13
得票数 1
1
回答
错误:`callbacks`必须是返回DefaultCallbacks子类的可调用方法,got <类callbacks`
、
、
、
当我运行一些代码(
DDPG
-深度确定性策略梯度)时,出现以下错误: ValueError:callbacks必须是返回DefaultCallbacks的子类的可调用方法,got <类
DDPG
我的代码如下: import json log_dir = "/root/ray_results/
DDPG
_SimpleSupplyChain_2020-07-15_open(f"{log_dir}/params.json", &
浏览 22
提问于2020-07-15
得票数 1
1
回答
为什么经过训练的RL代理仍然在测试数据上显示随机的“探索性”行为?
我正在使用稳定的基线训练PPO2 RL
模型
。然而,我认为,一旦对一个代理进行了训练,并用于对新的测试数据进行操作(预测),将使用
模型
参数,而不会进行任何探索。因此,在测试时,我认为代理操作和随后的奖励是确定性的(一旦测试数据是静态的)。经过训练的代理在多大程度上是随机的(它是否会在90%的时间内遵循其
模型
预测,并猜测其余的10%)?
浏览 0
提问于2019-07-24
得票数 4
回答已采纳
1
回答
如何
将model.learn()指定为在稳定基线3的某一集内结束?
、
、
我知道指定total_timesteps=是一个require参数,但是
如何
在特定的事件中结束model.learn()呢?请原谅我,因为我对stables_baselines3还是新手,而pytorch仍然不知道
如何
在代码中实现它。import gymfrom stable_baselines3 import
DDPG
from stable_baselines3.common.noiseaction_noise = NormalActionNoise(mean=np.zeros(n_actions
浏览 14
提问于2022-02-05
得票数 0
1
回答
为什么
DDPG
/TD3不能从旧数据和PPO中获益?
在我看来,
DDPG
和PPO都是建立在A2C的基础上,并同时训练演员和评论家。PPO使用策略的比率来限制逐步大小,而
DDPG
则使用策略来预测批判者计算的值的动作。因此,在这两种方法(PPO和
DDPG
)中,都将当前的两种策略用于批评者和参与者的损失函数中。所以现在来问我的实际问题:为什么
DDPG
能够从旧数据中受益,或者更确切地说,为什么PPO不能从旧数据中受益。可以说,PPO中的策略比例限制了策略与其之间的距离,因此需要新的数据。但是,与
DDPG
相比,A2C
如何
在政策上不能从旧数据中获益呢?
浏览 6
提问于2019-09-25
得票数 1
1
回答
策略梯度算法中的目标网络在简单术语中的强化学习是什么?
、
如何
区别于常规网络源文本->“在
DDPG
算法拓扑中包含两个网络权重副本(Actor:正则和目标)和(评论:正则和目标)”
浏览 2
提问于2020-01-24
得票数 2
1
回答
我想在稳定基线3中获得csv格式的片段奖励。
、
我想在每一集之后检索数据,我已经阅读了您可以使用的文档,stable_baselines3.common.monitor.ResultsWriter,但是我不知道
如何
在代码中实现它。CheckpointCallback, CallbackList, StopTrainingOnMaxEpisodes, EveryNTimesteps from stable_baselines3 import
DDPG
action_noise = NormalActionNoise(mean=np.zeros(n_actions), sigma=0.1 * np.ones(n
浏览 9
提问于2022-02-07
得票数 0
1
回答
如何
在影评人中找到真实的q值和高估偏差
、
、
我试图勾勒出在
DDPG
和TD3
模型
中批评人士的高估偏差。因此,本质上有一个critic_target和一个评论家网络。我想知道怎样才能找到具有真实Q值的批评家的高估偏倚呢?怎样才能找到真正的Q值?在我的影评人
模型
的训练阶段,有人能指导我策划同样的事情吗?
浏览 8
提问于2022-06-15
得票数 0
回答已采纳
1
回答
理解MDP变体和“无
模型
”RL算法
、
如果我决定使用一种无
模型
算法,比如
DDPG
或PPO,我认为它的理论是基于MDP的--我是否包含在状态或
模型
定义上?它会产生一个效率较低的代理吗?
浏览 0
提问于2022-09-10
得票数 0
回答已采纳
1
回答
简单的DQN示例-在配置中指定什么,以便将
模型
参数和结果打印出来?
我想在运行DQN或
DDPG
模型
后打印参数和结果。我在jupyter notebook中触发了
模型
,如下所示。 定义了配置和对象,并命名为training。如下所示: 但这并未打印
模型
参数和结果。请说明
如何
打印这些内容? Ubuntu EC2实例Jupyter notebook DQN on cart pole示例。epi %1000 ==0: print("checkpoint saved at",
浏览 20
提问于2019-04-13
得票数 1
2
回答
当我添加批处理规范化时,Keras
模型
会中断。
、
、
、
我正在为
DDPG
代理(keras-rl版本)创建
模型
,但是每当我尝试在两个网络中的第一个网络中添加批处理规范化时,我就会遇到一些错误。这些
模型
正被keras-rl
DDPG
代理所使用。 更新:我尝试用顺序对象而不是函数式api重写它。帮不上忙。仍然没有改变就得到了错误。当应用于多个
模型
的系统时,我开始认为这是keras的批规范化类的某种问题。
浏览 0
提问于2019-07-11
得票数 2
回答已采纳
1
回答
Rllib中PPO的策略网络
、
我知道
如何
在Rllib中为
DDPG
这样做,但是PPO的问题是我找不到策略网络。谢谢。
浏览 81
提问于2021-01-10
得票数 0
回答已采纳
1
回答
如何
保证演员选择正确的动作?
在深层确定性策略梯度(
DDPG
)算法的训练阶段,动作选择将是简单的。其中state是当前环境的状态,actor是一种深度神经网络。我不明白
如何
保证返回的action属于所考虑的环境的操作空间。 例如,state可以是4大小的向量,动作空间可以是实数的区间[-1,1]或[-1,1]x[-2,2]的笛卡尔积。我在GitHub上读了一些
DDPG
的源代码,但是我在这里遗漏了一些东西,我找不到答案。
浏览 2
提问于2021-01-04
得票数 1
回答已采纳
1
回答
深度RL:再培训应该多久进行一次?
如标题所示,在使用深度RL时,应该多久进行一次再培训?我想每次行动后再培训都太贵了吧?我也猜没有具体的数字(例如在1000次行动之后还是在一周之后),那么哪一个标准最有帮助?
浏览 0
提问于2022-01-25
得票数 0
1
回答
如何
将参与者的输出限制在特定的范围内?
、
、
我正在尝试将深度确定性策略梯度(
DDPG
)应用于一个过程控制问题。动作输出是连续的。例如,该过程的温度将为25至100摄氏度,或者电机转速将为0至3.0 rpm。我认为Actor-Critic和
DDPG
算法将是解决我的问题的一个很好的方法。 return action我应该
如何
修改我
浏览 0
提问于2018-05-29
得票数 1
1
回答
Tensorflow急切执行多线程
、
在tensorflow 2.0上运行一个
DDPG
增强学习程序。对于我使用的批处理大小,培训非常慢,所以我希望在一个单独的线程中运行培训,而不是执行。但是,当尝试在一个单独的线程上训练Tensorflow
模型
时,我遇到了一些问题。是否有方法在第二个线程上恢复tensorflow
模型
的会话,以便tensorflow
模型
可以在一个线程上进行训练并在另一个线程上进行评估?还是这不可能?
浏览 4
提问于2019-12-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券