腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
tf-代理的“政策”和“`collect_policy`”有什么区别?
、
、
、
、
有一种不同的
策略
,称为collect_policy用于培训,而不是用于评估(policy)。agent.policy -用于评估和部署的主要
策略
。
策略
:表示代理当前
策略
的tf_policy.Base的实例。collect_policy:表示代理当前数据收集
策略
浏览 0
提问于2020-04-24
得票数 5
1
回答
不同的
策略
迭代方法可以收敛到不同的
最优
策略
吗?
我注意到根据lambda的值得到不同的
策略
。TD(1)和TD(0)能给出不同的
最优
策略
吗? 更新:增加我的初始值函数在两种情况下都会得到相同的结果。
浏览 0
提问于2020-02-13
得票数 0
1
回答
使用时态差异学习有什么意义呢?
、
据我所知,对于特定的
策略
\pi,时间差异学习让我们计算该
策略
之后的期望值\pi,但是知道特定
策略
的意义是什么呢? 难道我们不应该为给定的环境找到
最优
的
策略
吗?
浏览 6
提问于2017-11-26
得票数 0
回答已采纳
1
回答
Q-学习
算法
会变得过度训练吗?
、
、
证明了Q-学习
算法
收敛于
最优
策略
的Qs是唯一的。那么,得出Q-学习
算法
不能被过度训练的结论是正确的吗?
浏览 3
提问于2016-09-04
得票数 1
回答已采纳
2
回答
强化学习效果
、
我将更具体地说明:让我们在连续状态空间中有一个时间序列问题,有限的动作数,以及
策略
函数的线性逼近器。所以我遵循一个
算法
来找到最佳
策略
,在这个特殊情况下,我考虑的线性函数的
最优
值。现在我的疑问是:所谓的最佳
策略
是在应用
算法
的过程中找到的
策略
,或者我必须获得最终的
最优
值,对于每一段时间,我必须使用它们来找到哪种行动使动作-值函数最大化?(为了更好地解释“在
算法
应用过程中发现的
策略
”的含义,让我们考虑这个愚蠢的考虑:最好的
浏览 0
提问于2020-05-06
得票数 1
回答已采纳
1
回答
政策外的学习方法比政策上的方法好吗?
、
我无法理解on
策略
方法(如A3C)和非
策略
方法(如DDPG)之间的根本区别。据我所知,不管行为
策略
如何,非
策略
方法都可以学习
最优
策略
。它可以通过观察环境中的任何轨迹来学习。它说,Q-learning将学习沿着悬崖行走的最佳
策略
,而SARSA将在使用epsilon-greedy
策略
时学会选择更安全的方法。但是既然Q-learning已经告诉我们
最优
策略
,为什么我们不直接遵循这个
策略
而不是继续探索呢?
浏览 3
提问于2017-03-05
得票数 5
回答已采纳
3
回答
Q-learning和SARSA与贪婪选择是等价的吗?
、
、
如果使用贪婪选择
策略
,也就是说,动作值最高的动作被100%选择,那么SARSA和Q-learning是否相同?
浏览 7
提问于2015-09-29
得票数 9
回答已采纳
1
回答
目标函数(SA)和价值函数(RL)的区别是什么?
、
、
理想情况下,目标函数的最小值对应于
最优
解。 在强化学习(RL)中,我们有一个值函数v( s ),它给出了在当前状态下它有多好的值。
浏览 9
提问于2022-06-02
得票数 3
2
回答
强化学习:为什么贪婪地用
最优
值函数给你
最优
的
策略
?
、
、
、
关于强化学习的大卫·希尔弗课程解释了如何从
最优
值函数中获得
最优
策略
。📷奖励方面也出现了类似的问题,我们通过权衡未来的期望来
浏览 0
提问于2020-02-18
得票数 1
5
回答
价值迭代和政策迭代有什么区别?
、
、
、
在强化学习中,
策略
迭代和价值迭代有什么区别? 据我所理解,在值迭代中,您使用Bellman方程来求解
最优
策略
,而在
策略
迭代中,您随机选择一个
策略
π,并找到该
策略
的回报。我怀疑,如果你在PI中选择一个随机
策略
π,它如何保证是
最优
策略
,即使我们选择了几个随机
策略
。
浏览 13
提问于2016-05-22
得票数 136
1
回答
为什么合并不是动态规划
我读过以下几个字: 是否有使用动态规划的应用实例?
浏览 1
提问于2013-03-24
得票数 16
回答已采纳
1
回答
为什么增强
算法
在用不均匀概率初始化时会收敛?
、
、
、
在以下情况下,为什么增强
算法
(或任何其他简单的
策略
梯度
算法
)收敛到采取行动b的
最优
解,即使采取行动a的起始概率要高得多?
浏览 3
提问于2020-12-14
得票数 0
回答已采纳
1
回答
装箱中启发式
算法
与近似
算法
的区别
、
、
我正在研究的解决方案:下一次拟合、第一次拟合、最佳拟合、最坏拟合、第一次拟合递减、最佳拟合递减启发式:对于一些困难的问题,很难在一个很好的运行时间内得到一个可接受的解决方案,所以我们可以通过使用一些有知识的猜测或任意选择来得到一个“好”的解决方案。近似
算法
:这给出了一个近似解,对它的性能有一些“保证”(可能是一个比率,或者类似的)。 所以,我的问题是,这些解是我正在研究的启发式
算法
还是近似<
浏览 2
提问于2018-05-14
得票数 1
回答已采纳
1
回答
在Q-学习中,为什么Q指标同时包括状态和行为?
、
在我看来,在稍微简化
算法
的同时,也可以得到同样的结果,如果我们只是将它与状态关联起来,而不是将奖励与在状态下采取给定的行为联系起来。那么奖励就会与S的行动A联系起来,因为这导致了T国家,它有奖励。
浏览 0
提问于2023-03-11
得票数 1
回答已采纳
1
回答
粒子群优化
算法
在R中的实现
、
、
我在R中检查了一个简单的移动平均交叉
策略
,而不是在二维参数空间(短期移动平均的长度,长期移动平均的长度)上运行巨大的模拟,我想实现粒子群优化
算法
来找到
最优
的参数值。我一直在浏览网页,读到这个
算法
非常有效。此外,
算法
的工作方式让我着迷……非常感谢你的评论。 马丁
浏览 1
提问于2010-10-17
得票数 10
回答已采纳
1
回答
边可被障碍物遮挡的图搜索
算法
、
、
、
、
实现
算法
的简易性和执行时间非常重要,因此如果
算法
更简单、更快,我愿意牺牲
最优
解决方案来换取接近
最优
的解决方案。 一条边可以被障碍物挡住。一条边被阻挡的概率是预先知道的。阻塞是相互独立的。我的问题类似于加拿大的旅行者问题,但我的理解是,随机编程问题的解决方案相对难以实现,并且找到
最优
策略
所需的时间可能相对较长。目前,我正在考虑将问题转换为确定性问题,以便可以使用像A*这样的搜索
算法
来解决它。这是一种好的方法吗?如果是的话,我该如何做?
浏览 4
提问于2013-03-24
得票数 1
1
回答
Q-学习收敛到
最优
策略
、
我正在使用基于rlglue的框架进行Q学习.我的理解是,随着时间的推移,
算法
收敛到一个
最优
策略
(这是一个映射,说明在什么状态下要采取什么行动)。Question2:如果
算法
已经收敛到某些
策略
,那么为什么奖励会下降呢?是否有可能报酬会有很大的差异? Question3:有什么标准方法可以用来比较各种RL
算法
的结果吗?
浏览 3
提问于2014-04-15
得票数 5
回答已采纳
1
回答
cb_explore输入格式:训练中提供概率值的用法
然而,其中的cb
算法
已经在尝试从数据中学习
最优
策略
,即每个动作的概率。那么,为什么它需要输入中每个动作的概率呢?它只是为了初始化吗?
浏览 29
提问于2019-10-15
得票数 0
回答已采纳
1
回答
可以将基于
策略
的设计与自动化测试一起使用吗?
、
、
、
我正在开发一个数值模拟库,它以由不同计算
算法
操作的单个数据集合为中心。这些
算法
很复杂,它们具有涉及多个参数的不同状态,并且可以互换(在某些语义限制下)。为了避免集合的接口膨胀,并支持不同的实现等,我正在考虑使用基于
策略
的设计。这使集合在存储结构、
算法
、参数和内部内容之间有了广泛的选择。如果我想象我重新设计了我的通用/面向对象的现有设计
策略
,我如何选择
最优
的
算法
和数据结构?从概念上讲,我需要定义一组
策略
和一组验证测试用例,并执行参数研究。我如何
浏览 1
提问于2013-04-05
得票数 2
回答已采纳
1
回答
中位快速排序的最坏情况时间复杂度是多少?
、
、
、
中位快速排序中值的最坏情况时间复杂度是多少(枢轴是由需要O(n)时间查找的中间值的中位数决定的)?
浏览 1
提问于2014-11-22
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
公认最优秀的七款策略游戏
机器学习中的最优化算法总结
如何制定一个物流中心最优分拣策略?
策略算法工程师
走近流行强化学习算法:最优Q-Learning
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券