腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(406)
视频
沙龙
2
回答
确定性
策略
梯度
相对于
随机
策略
梯度
的
优势
是什么
?
深度
确定性
策略
梯度
()是动作空间连续时强化学习
的
最新方法。它
的
核心算法是。 然而,在阅读了论文和听了the talk ()之后,我仍然无法弄清楚
确定性
PG
相对于
随机
PG
的
根本
优势
是什么
。
浏览 64
提问于2017-03-13
得票数 12
1
回答
为什么DDPG是
策略
梯度
方法?
、
、
、
为什么DDPG是一个
策略
梯度
方法,即使它
的
参与者没有输出概率?
浏览 0
提问于2021-04-10
得票数 1
回答已采纳
1
回答
DDPG
策略
网络
的
输出可以是概率分布而不是某个动作值吗?
、
我们知道,DDPG是一种
确定性
的
策略
梯度
方法,其
策略
网络
的
输出应该是某个动作。但是有一次我尝试将
策略
网络
的
输出设为若干行动
的
概率分布,这意味着输出
的
长度大于1,并且每个行动都有自己
的
概率,并且它们
的
和等于1。输出
的
形式类似于
随机
策略
梯度
方法,但
梯度
是计算
的
,网络是以DDPG<
浏览 2
提问于2019-12-22
得票数 1
1
回答
为什么经过训练
的
RL代理仍然在测试数据上显示
随机
的
“探索性”行为?
我正在使用稳定
的
基线训练PPO2 RL模型。我发现
的
一件事是,经过训练
的
代理仍然会在测试数据上显示一些
随机
行为,如predict方法PPO2所示;deterministic标志应该设置为True,以查看
确定性
(非
随机
)行为。我理解,在训练一个RL代理时,需要进行一定数量
的
随机
探索,以便agent能够学习最优
的
值
策略
网络。然而,我认为,一旦对一个代理进行了训练,并用于对新
的
测试数据进行操作(预测),将
浏览 0
提问于2019-07-24
得票数 4
回答已采纳
1
回答
为什么DDPG/TD3不能从旧数据和PPO中获益?
关于深度强化学习,我有一个更一般
的
问题。我总是有点挣扎,到底有什么不同
的
断断续续
的
政策是。可以肯定地说,非
策略
是在轨迹采样过程中从不同
的
行为分布中进行抽样,而on
策略
是使用实际
策略
进行轨迹生成。或者on
策略
无法从旧数据中受益,而off
策略
则可以。两者都没有真正
的
回答,确切
的
区别
是什么
,而是告诉我输出。 在我看来,DDPG和PPO都是建立在A2C
的
基础上,并同时训练
浏览 6
提问于2019-09-25
得票数 1
2
回答
A3C -将动作概率转化为强度
、
、
、
我正在尝试使用A3C网络来学习玩古老
的
Atari电子游戏。我
的
网络为每个可能
的
动作输出一组概率(例如,左、右、射),我使用这些信息来确定在游戏中采取
的
行动。然而,我已经开始思考,一个人将如何去玩一个非二进制行动
的
游戏。例如,用方向盘(而不是键盘键)左右操纵汽车。我想简单地把概率转换成强度(例如,如果我
的
左向右
的
数值为1.0/0.0,那么就使最难
的
左转成为可能,但如果我
的
值为0.6/0.4,则进行一个更渐进
的
浏览 0
提问于2018-01-27
得票数 2
回答已采纳
2
回答
Keras中
的
策略
梯度
、
、
、
、
我一直试图建立一个使用‘深度Q-学习’
的
模型,其中我有大量
的
行动(2908)。在使用标准DQN:()取得有限
的
成功之后,我决定做更多
的
研究,因为我认为动作空间太大,无法进行有效
的
探索。然后我发现了这篇论文:,在这里他们使用了一个参与者-评论家模型和
策略
梯度
,这导致了我:,在那里,他们使用
策略
梯度
来获得比DQN更好
的
结果。我已经找到了几个在Keras、和中实现
策略
梯度
的</e
浏览 6
提问于2016-11-05
得票数 23
1
回答
OpenAI用来创建捉迷藏游戏代理
的
算法
是什么
?
、
、
、
、
我刚在youtube上看到了这样
的
视频:https://www.youtube.com/watch?v=kopoLzvh5jY&t=9s如果是
策略
梯度
法,那么他们使用了哪种
策略
梯度
法?
浏览 0
提问于2021-04-16
得票数 0
回答已采纳
1
回答
策略
梯度
中值函数逼近
的
稳定性
、
、
、
在DQN中,Q值
的
函数逼近对于相关更新是不稳定
的
.在具有基线
的
策略
梯度
中,
策略
的
值函数是否不会被相同
的
相关更新所困扰? 例如,在加强型基线算法中,更新按时间顺序应用于每个时间步骤。我知道,在
策略
梯度
中,目标是估计
策略
的
值,而不一定是整个状态空间;然而,在
随机
环境和/或
随机
策略
下,并不是所有的状态都会以相同
的</
浏览 0
提问于2018-10-16
得票数 1
回答已采纳
1
回答
理解
策略
梯度
定理--获取奖励wrt
策略
参数
的
梯度
意味着什么?
、
、
我想要弄清楚政策
梯度
定理
是什么
意思。我
的
困惑在于强化学习中
的
奖励R在政策参数中是不可微
的
。在这种情况下,
策略
梯度
的
中心目标是如何找到奖励R
的
梯度
--
策略
函数
的
参数--甚至是有意义
的
?
浏览 0
提问于2019-02-26
得票数 0
1
回答
初始化不良
的
目标批判性
、
、
使用深度
确定性
策略
梯度
处理第一轮非
策略
培训
的
好方法
是什么
? 这是我
的
问题:我用和零初始化所有权重,以避免偏差。然而,当计算批评损失时,我得到了无限
的
MSE,因为Q_target和Q_eval之间
的
差别太大了。把这个剪成一个很大
的
值是不是个坏主意?
浏览 4
提问于2017-10-05
得票数 0
回答已采纳
3
回答
理解遗传算法
、
什么是遗传算法,它
相对于
其他算法
的
实际
优势
是什么
?它是否类似于任何常用
的
机器学习算法,如线性/logistic回归,神经网络,或基于树
的
方法,如
梯度
增强和
随机
森林?我听说它是基于其他型号
的
“变异”组合。这能让它更像一个合奏吗?
浏览 0
提问于2016-06-29
得票数 4
回答已采纳
1
回答
在玩Atari突破时,简单
的
策略
梯度
(强化)可以覆盖一个动作。
、
、
、
、
自给代码: 我尝试过
的
: 只在游戏开始时玩
随机
动作(采取越来越贪婪
的
行动,遵循
策略
)。我本以为在游戏开始
的<
浏览 1
提问于2019-11-20
得票数 0
1
回答
在torch.distributions.Normal
的
LibTorch中是否有相当于PyTorch
的
C++ API?
、
、
、
我正在用
随机
策略
实现
策略
梯度
算法,由于“辅助”非PyTorch操作在Python中速度慢,所以我想在C++中实现该算法。在PyTorch C++ API中有实现正态分布
的
方法吗?
浏览 19
提问于2022-04-22
得票数 1
回答已采纳
1
回答
参数化
策略
的
这个值函数意味着什么?它与RL中
的
TRPO有关吗?
、
Iv一直在观看斯坦福大学youtube上
的
RL讲座。在第9集-政策
梯度
2中,老师艾玛·布鲁斯基尔说,我们将学习如何通过调整(尚不确定如何)调整我们计算
的
策略
梯度
估计来制定更安全
的
策略
梯度
步骤。老师说,\theta参数化
的
策略
的
值函数
的
方程式如下。我在找一个解释这个方程式是干什么用
的
?或者为什么使用另一个
策略
的
值函数和
优势
浏览 0
提问于2022-07-13
得票数 0
回答已采纳
2
回答
为什么
策略
梯度
定理在强化学习中使用Q函数?
、
策略
梯度
算法
的
引入表明,
策略
算法是更好
的
算法,因为它直接优化
策略
,而不需要先计算Q。那么为什么他们在等式中使用Q呢?他们如何在不先计算Q函数
的
情况下直接计算整个东西?
浏览 5
提问于2019-09-20
得票数 1
1
回答
梯度
下降如何避免局部极小值?
、
在神经网络和深度学习中,
梯度
下降算法被描述为与
梯度
相反
的
方向。 链接到书中
的
位置。
是什么
阻止这一
策略
在当地最低限度着陆?
浏览 0
提问于2022-06-19
得票数 1
回答已采纳
1
回答
策略
优化是否学习
策略
以更高
的
概率做出更好
的
行动?
、
、
当我谈到
策略
优化时,它会被引用到下面的图片,并且它被链接到DFO/进化论加上
策略
梯度
。我想知道这样
的
说法是否正确:
策略
优化学习
策略
,以更高
的
概率做出更好
的
行动?另外,最大化
策略
优化在图片中
的
位置
是什么
?
浏览 0
提问于2018-11-13
得票数 1
回答已采纳
1
回答
基于神经网络
的
幕式半
梯度
Sarsa
、
、
在尝试实现Episodic Semi-gradient Sarsa with神经网络作为逼近器时,我想知道如何根据当前学习到
的
网络权重来选择最优动作。如果动作空间是离散
的
,我只需计算当前状态下不同动作
的
估计值,就可以选择给出最大值
的
动作。但这似乎不是解决问题
的
最佳办法。此外,如果动作空间可以是连续
的
(例如,自动驾驶汽车
的
加速),则不起作用。因此,我很想知道如何解决这个伪代码中
的
第10行Choose A' as a function of q(
浏览 6
提问于2017-07-28
得票数 6
回答已采纳
2
回答
Tensorflow权重初始化
、
、
关于在TensorFlow网站上
的
应用,我做了一个实验(),看看不同
的
权重初始化对学习有什么影响。我注意到,与我在流行
的
中看到
的
情况相比,不管体重初始化如何,学习都是很好
的
。 不同
的
曲线代表w
的
不同值,用于初始化卷积层和完全连通层
的
权重。请注意,w
的
所有值都工作得很好,尽管0.3和1.0
的
性能降低了,有些值训练得更快--特别是0.03和0.1是最快
的
。尽管如此,图中显示了相当大范围
的
浏览 1
提问于2017-04-19
得票数 16
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
构建生物打印结构内部梯度的扩散策略
策略梯度搜索:不使用搜索树的在线规划和专家迭代
对比梯度下降与进化策略,神经进化会成为深度学习的未来吗?
谷歌大脑提出MAPO:用于程序合成的策略优化方法
带引导的进化策略:摆脱随机搜索中维数爆炸的魔咒
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券