最优策略算法_最优合并问题算法策略_最优混合策略算法 - 腾讯云开发者社区

、、、、

有一种不同的策略，称为collect_policy用于培训，而不是用于评估(policy)。agent.policy -用于评估和部署的主要策略。策略:表示代理当前策略的tf_policy.Base的实例。collect_policy:表示代理当前数据收集策略

浏览 0提问于2020-04-24得票数 5

1回答

不同的策略迭代方法可以收敛到不同的最优策略吗？

我注意到根据lambda的值得到不同的策略。TD(1)和TD(0)能给出不同的最优策略吗？更新:增加我的初始值函数在两种情况下都会得到相同的结果。

浏览 0提问于2020-02-13得票数 0

1回答

使用时态差异学习有什么意义呢？

、

据我所知，对于特定的策略\pi，时间差异学习让我们计算该策略之后的期望值\pi，但是知道特定策略的意义是什么呢？难道我们不应该为给定的环境找到最优的策略吗？

浏览 6提问于2017-11-26得票数 0

回答已采纳

1回答

Q-学习算法会变得过度训练吗？

、、

证明了Q-学习算法收敛于最优策略的Qs是唯一的。那么，得出Q-学习算法不能被过度训练的结论是正确的吗？

浏览 3提问于2016-09-04得票数 1

回答已采纳

2回答

我将更具体地说明:让我们在连续状态空间中有一个时间序列问题，有限的动作数，以及策略函数的线性逼近器。所以我遵循一个算法来找到最佳策略，在这个特殊情况下，我考虑的线性函数的最优值。现在我的疑问是:所谓的最佳策略是在应用算法的过程中找到的策略，或者我必须获得最终的最优值，对于每一段时间，我必须使用它们来找到哪种行动使动作-值函数最大化？(为了更好地解释“在算法应用过程中发现的策略”的含义，让我们考虑这个愚蠢的考虑:最好的

浏览 0提问于2020-05-06得票数 1

回答已采纳

1回答

政策外的学习方法比政策上的方法好吗？

、

我无法理解on策略方法(如A3C)和非策略方法(如DDPG)之间的根本区别。据我所知，不管行为策略如何，非策略方法都可以学习最优策略。它可以通过观察环境中的任何轨迹来学习。它说，Q-learning将学习沿着悬崖行走的最佳策略，而SARSA将在使用epsilon-greedy策略时学会选择更安全的方法。但是既然Q-learning已经告诉我们最优策略，为什么我们不直接遵循这个策略而不是继续探索呢？

浏览 3提问于2017-03-05得票数 5

回答已采纳

3回答

Q-learning和SARSA与贪婪选择是等价的吗？

、、

如果使用贪婪选择策略，也就是说，动作值最高的动作被100%选择，那么SARSA和Q-learning是否相同？

浏览 7提问于2015-09-29得票数 9

回答已采纳

1回答

目标函数(SA)和价值函数(RL)的区别是什么？

、、

理想情况下，目标函数的最小值对应于最优解。在强化学习(RL)中，我们有一个值函数v( s )，它给出了在当前状态下它有多好的值。

浏览 9提问于2022-06-02得票数 3

2回答

强化学习:为什么贪婪地用最优值函数给你最优的策略？

、、、

关于强化学习的大卫·希尔弗课程解释了如何从最优值函数中获得最优策略。📷奖励方面也出现了类似的问题，我们通过权衡未来的期望来

浏览 0提问于2020-02-18得票数 1

5回答

价值迭代和政策迭代有什么区别？

、、、

在强化学习中，策略迭代和价值迭代有什么区别？据我所理解，在值迭代中，您使用Bellman方程来求解最优策略，而在策略迭代中，您随机选择一个策略π，并找到该策略的回报。我怀疑，如果你在PI中选择一个随机策略π，它如何保证是最优策略，即使我们选择了几个随机策略。

浏览 13提问于2016-05-22得票数 136

1回答

为什么合并不是动态规划

我读过以下几个字：是否有使用动态规划的应用实例？

浏览 1提问于2013-03-24得票数 16

回答已采纳

1回答

为什么增强算法在用不均匀概率初始化时会收敛？

、、、

在以下情况下，为什么增强算法(或任何其他简单的策略梯度算法)收敛到采取行动b的最优解，即使采取行动a的起始概率要高得多？

浏览 3提问于2020-12-14得票数 0

回答已采纳

1回答

装箱中启发式算法与近似算法的区别

、、

我正在研究的解决方案:下一次拟合、第一次拟合、最佳拟合、最坏拟合、第一次拟合递减、最佳拟合递减启发式:对于一些困难的问题，很难在一个很好的运行时间内得到一个可接受的解决方案，所以我们可以通过使用一些有知识的猜测或任意选择来得到一个“好”的解决方案。近似算法:这给出了一个近似解，对它的性能有一些“保证”(可能是一个比率，或者类似的)。所以，我的问题是，这些解是我正在研究的启发式算法还是近似<

浏览 2提问于2018-05-14得票数 1

回答已采纳

1回答

在Q-学习中，为什么Q指标同时包括状态和行为？

、

在我看来，在稍微简化算法的同时，也可以得到同样的结果，如果我们只是将它与状态关联起来，而不是将奖励与在状态下采取给定的行为联系起来。那么奖励就会与S的行动A联系起来，因为这导致了T国家，它有奖励。

浏览 0提问于2023-03-11得票数 1

回答已采纳

1回答

粒子群优化算法在R中的实现

、、

我在R中检查了一个简单的移动平均交叉策略，而不是在二维参数空间(短期移动平均的长度，长期移动平均的长度)上运行巨大的模拟，我想实现粒子群优化算法来找到最优的参数值。我一直在浏览网页，读到这个算法非常有效。此外，算法的工作方式让我着迷……非常感谢你的评论。马丁

浏览 1提问于2010-10-17得票数 10

回答已采纳

1回答

边可被障碍物遮挡的图搜索算法

、、、、

实现算法的简易性和执行时间非常重要，因此如果算法更简单、更快，我愿意牺牲最优解决方案来换取接近最优的解决方案。一条边可以被障碍物挡住。一条边被阻挡的概率是预先知道的。阻塞是相互独立的。我的问题类似于加拿大的旅行者问题，但我的理解是，随机编程问题的解决方案相对难以实现，并且找到最优策略所需的时间可能相对较长。目前，我正在考虑将问题转换为确定性问题，以便可以使用像A*这样的搜索算法来解决它。这是一种好的方法吗?如果是的话，我该如何做？

浏览 4提问于2013-03-24得票数 1

1回答

Q-学习收敛到最优策略

、

我正在使用基于rlglue的框架进行Q学习.我的理解是，随着时间的推移，算法收敛到一个最优策略(这是一个映射，说明在什么状态下要采取什么行动)。Question2:如果算法已经收敛到某些策略，那么为什么奖励会下降呢？是否有可能报酬会有很大的差异？ Question3:有什么标准方法可以用来比较各种RL算法的结果吗？

浏览 3提问于2014-04-15得票数 5

回答已采纳

1回答

cb_explore输入格式:训练中提供概率值的用法

然而，其中的cb算法已经在尝试从数据中学习最优策略，即每个动作的概率。那么，为什么它需要输入中每个动作的概率呢？它只是为了初始化吗？

浏览 29提问于2019-10-15得票数 0

回答已采纳

1回答

可以将基于策略的设计与自动化测试一起使用吗？

、、、

我正在开发一个数值模拟库，它以由不同计算算法操作的单个数据集合为中心。这些算法很复杂，它们具有涉及多个参数的不同状态，并且可以互换(在某些语义限制下)。为了避免集合的接口膨胀，并支持不同的实现等，我正在考虑使用基于策略的设计。这使集合在存储结构、算法、参数和内部内容之间有了广泛的选择。如果我想象我重新设计了我的通用/面向对象的现有设计策略，我如何选择最优的算法和数据结构？从概念上讲，我需要定义一组策略和一组验证测试用例，并执行参数研究。我如何

浏览 1提问于2013-04-05得票数 2

回答已采纳

1回答