最优合并问题算法策略_最优合并问题算法_最优合并问题算法思想 - 腾讯云开发者社区

我读过以下几个字：为什么合并和快速排序不是动态规划？我认为合并也可以分为小问题和小问题，然后做同样的事情等等。Di

浏览 1提问于2013-03-24得票数 16

回答已采纳

1回答

tf-代理的“政策”和“`collect_policy`”有什么区别？

、、、、

有一种不同的策略，称为collect_policy用于培训，而不是用于评估(policy)。agent.policy -用于评估和部署的主要策略。策略:表示代理当前策略的tf_policy.Base的实例。collect_policy:表示代理当前数据收集策略

浏览 0提问于2020-04-24得票数 5

1回答

不同的策略迭代方法可以收敛到不同的最优策略吗？

我注意到根据lambda的值得到不同的策略。TD(1)和TD(0)能给出不同的最优策略吗？更新:增加我的初始值函数在两种情况下都会得到相同的结果。

浏览 0提问于2020-02-13得票数 0

2回答

我将更具体地说明:让我们在连续状态空间中有一个时间序列问题，有限的动作数，以及策略函数的线性逼近器。所以我遵循一个算法来找到最佳策略，在这个特殊情况下，我考虑的线性函数的最优值。现在我的疑问是:所谓的最佳策略是在应用算法的过程中找到的策略，或者我必须获得最终的最优值，对于每一段时间，我必须使用它们来找到哪种行动使动作-值函数最大化？我认为这个问题的答案是否定的，但如果有人能证实这一点，我将不胜感激。 (为了更好地解释

浏览 0提问于2020-05-06得票数 1

回答已采纳

1回答

使用时态差异学习有什么意义呢？

、

据我所知，对于特定的策略\pi，时间差异学习让我们计算该策略之后的期望值\pi，但是知道特定策略的意义是什么呢？难道我们不应该为给定的环境找到最优的策略吗？

浏览 6提问于2017-11-26得票数 0

回答已采纳

1回答

目标函数(SA)和价值函数(RL)的区别是什么？

、、

理想情况下，目标函数的最小值对应于最优解。在强化学习(RL)中，我们有一个值函数v( s )，它给出了在当前状态下它有多好的值。所以我的问题是，E(s)和v(s)之间有什么区别？

浏览 9提问于2022-06-02得票数 3

2回答

强化学习:为什么贪婪地用最优值函数给你最优的策略？

、、、

关于强化学习的大卫·希尔弗课程解释了如何从最优值函数中获得最优策略。📷奖励方面也出现了类似的问题

浏览 0提问于2020-02-18得票数 1

1回答

Q-学习算法会变得过度训练吗？

、、

证明了Q-学习算法收敛于最优策略的Qs是唯一的。那么，得出Q-学习算法不能被过度训练的结论是正确的吗？

浏览 3提问于2016-09-04得票数 1

回答已采纳

4回答

O(nlogn)就地排序算法

、、、、

这个问题是在我的计算机科学入门期中考试准备的。有一种算法可以在O(n)时间内找到列表中的kth元素，并假定它已经就位。使用该算法，编写一个在最坏情况下运行的就地排序算法O(n*log(n))，并证明了它的有效性。既然这个算法存在，为什么还会使用mergesort呢？我假设我必须编写一些快速排序算法的替代形式，这是O(n^2)的最坏情况，因为合并排序不是就地算法。让我困惑的是在列表中找到kth元素的给定算法。通过数组的元素进行简单的

浏览 3提问于2015-10-21得票数 2

3回答

这个算法使用DP吗？

、

因此，我最近一直在学习动态规划(，DP )，当我遇到以下问题时，我决定使用DP，但由于我是算法初学者，我不确定这是否是DP的一个有效例子。给出一个数组符号。

浏览 1提问于2020-07-09得票数 2

回答已采纳

1回答

政策外的学习方法比政策上的方法好吗？

、

我无法理解on策略方法(如A3C)和非策略方法(如DDPG)之间的根本区别。据我所知，不管行为策略如何，非策略方法都可以学习最优策略。它可以通过观察环境中的任何轨迹来学习。它说，Q-learning将学习沿着悬崖行走的最佳策略，而SARSA将在使用epsilon-greedy策略时学会选择更安全的方法。但是既然Q-learning已经告诉我们最优策略，为什么我们不直接遵循这个策略而不是继续探索呢？

浏览 3提问于2017-03-05得票数 5

回答已采纳

1回答

边可被障碍物遮挡的图搜索算法

、、、、

实现算法的简易性和执行时间非常重要，因此如果算法更简单、更快，我愿意牺牲最优解决方案来换取接近最优的解决方案。一条边可以被障碍物挡住。一条边被阻挡的概率是预先知道的。阻塞是相互独立的。我的问题类似于加拿大的旅行者问题，但我的理解是，随机编程问题的解决方案相对难以实现，并且找到最优策略所需的时间可能相对较长。目前，我正在考虑将问题转换为确定性问题，以便可以使用像A*这样的搜索算法来

浏览 4提问于2013-03-24得票数 1

3回答

Q-learning和SARSA与贪婪选择是等价的吗？

、、

如果使用贪婪选择策略，也就是说，动作值最高的动作被100%选择，那么SARSA和Q-learning是否相同？

浏览 7提问于2015-09-29得票数 9

回答已采纳

1回答

动态规划:我有重叠子问题吗？

、、

，然后递归地找到子问题的最优解来解决，那么它就被称为有最优子结构。..。要使动态规划适用，一个问题必须具备两个关键属性:最优子结构和重叠子问题。如果一个问题可以通过组合不重叠子问题的最优解来解决，那么这种策略被称为“分而治之”。这就是合并排序和快速排序不被归类为动态规划问题的原因。最优子结构是指通过优化子问题的最优解的组合，得到

浏览 4提问于2018-10-11得票数 1

2回答

使用贪心算法进行优化

、、

如果一个优化问题可以用贪心方法解决，那么它的所有最优解是否都必须包含第一个选择(即贪婪选择)？

浏览 2提问于2013-06-17得票数 2

回答已采纳

5回答

价值迭代和政策迭代有什么区别？

、、、

在强化学习中，策略迭代和价值迭代有什么区别？据我所理解，在值迭代中，您使用Bellman方程来求解最优策略，而在策略迭代中，您随机选择一个策略π，并找到该策略的回报。我怀疑，如果你在PI中选择一个随机策略π，它如何保证是最优策略，即使我们选择了几个随机策略。

浏览 13提问于2016-05-22得票数 136

1回答

为什么需要PolicySet和策略？

、、、、

我阅读了3.0规范，并在这里提出了一个问题：我发现PolicySet和Policy有许多相似之处，比如组合算法等。为了适应更多的层次，PolicySet也可以自我约束。如果是这样，为什么不将PolicySet和 Policy 合并成一个名为Policy的概念，并使策略包含其他策略和规则？也没有太大区别，除了Rule具有条件<code>E 223</code>和<code>E 124</code>效果<code>e 225&l

浏览 8提问于2015-12-25得票数 2

回答已采纳

2回答

Python 3:扁平字典，包括列表

、、、、

]退出： "a": 1, "d.0": 3, "e.0.f": 5,} 但是，我们需要合并列表中的数据集(如示例中所示)。例如，列表中的第一条应与列表中的第一

浏览 15提问于2022-10-21得票数 2

回答已采纳

1回答

连续时间有限视界MDP

、、、、

有算法来求解有限时间半马尔可夫决策过程吗？我想找出具有有限作用空间、有限状态空间和最后期限的序贯决策问题的最优策略。关键的是，不同的动作需要不同的时间，对于其中一个动作，这个持续时间是随机的。我知道无限视界半MDPs的算法，但我在有限水平半MDPs上找不到任何工作。这类问题以前学过吗？

浏览 1提问于2016-05-03得票数 0

回答已采纳

3回答

仍然排序的最优整数编码

、、、

这里的最优性假设是，当n< m时，非负数n比数m更频繁。我最感兴趣的是，是否有一种(字节可比的)编码，它适用于整数，n的频率要比m，如果要比m，则要高得多。

浏览 6提问于2012-05-20得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么合并不是动态规划

tf-代理的“政策”和“`collect_policy`”有什么区别？

不同的策略迭代方法可以收敛到不同的最优策略吗？

强化学习效果

使用时态差异学习有什么意义呢？

目标函数(SA)和价值函数(RL)的区别是什么？

强化学习:为什么贪婪地用最优值函数给你最优的策略？

Q-学习算法会变得过度训练吗？

O(nlogn)就地排序算法

这个算法使用DP吗？

政策外的学习方法比政策上的方法好吗？

边可被障碍物遮挡的图搜索算法

Q-learning和SARSA与贪婪选择是等价的吗？

动态规划:我有重叠子问题吗？

使用贪心算法进行优化

价值迭代和政策迭代有什么区别？

为什么需要PolicySet和策略？

Python 3:扁平字典，包括列表

连续时间有限视界MDP

仍然排序的最优整数编码

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐