策略迭代问题_偏置交叉策略问题_Laravel策略的问题 - 腾讯云开发者社区

、

在强化学习中，我试图理解策略迭代和价值迭代之间的区别。这方面有一些一般性的答案，但我有两个具体的问题，我找不到答案。 1)我听说政策迭代“向前工作”，而价值迭代“向后工作”。这是什么意思？我认为这两种方法只需取每一种状态，然后查看它所能达到的所有其他状态，并从中计算值--要么将策略的动作分布(策略迭代)边缘化，要么通过对动作值(值迭代)的讨论。2)策略迭代需要在策略</em

浏览 3提问于2017-05-02得票数 8

回答已采纳

5回答

价值迭代和政策迭代有什么区别？

、、、

在强化学习中，策略迭代和价值迭代有什么区别？据我所理解，在值迭代中，您使用Bellman方程来求解最优策略，而在策略迭代中，您随机选择一个策略π，并找到该策略的回报。我怀疑，如果你在PI中选择一个随机策略π，它如何保证是最优策略，即使我们选择了几个随机策略。

浏览 13提问于2016-05-22得票数 136

1回答

网格世界中策略迭代背后的直觉

、、

我应该提出一个MDP代理，它使用策略迭代和值迭代进行分配，并将其性能与状态的效用值进行比较。有人能提供一些关于策略迭代如何工作的直觉吗？

浏览 2提问于2012-10-29得票数 3

1回答

动态规划强化学习中的策略迭代与值迭代混淆

、

在编码过程中，我理解的价值迭代是我们需要一个固定的策略。根据该策略，将计算每个状态的值函数。对吗？但在策略迭代中，策略会不时发生变化。我说的对吗？

浏览 0提问于2015-08-06得票数 0

回答已采纳

3回答

哪些方法使用瀑布策略，哪些方法使用增量策略？

、、、

我知道瀑布和增量策略的区别。但是我有点困惑，因为我看到了一些使用增量或迭代方法的方法，但是我看不到瀑布策略的任何例子。例如，Scrum是一种使用增量或迭代策略的方法，但是有使用瀑布策略的方法的例子吗？还是瀑布本身就是一种方法论？

浏览 0提问于2020-05-04得票数 -2

回答已采纳

1回答

深度优先搜索是一种完整的策略吗？

问题之一是“对每个策略的评论，这个策略是一个完整的策略吗？”二:迭代深化搜索现在我的回答是，没有深度优先不是因为它搜索最近生成的节点。至于迭代深化，id说是，因为它的最大深度是通过重复而增加的。最后，我完全肯定呼吸第一是一个完整的方法。如果有人能证实我的答案，或者向我解释我哪里出了问题，那就太好了。

浏览 0提问于2016-05-05得票数 0

回答已采纳

1回答

在OpenMP中获得循环迭代的默认调度

在OpenMP中，当您不指定任何循环迭代策略(在代码务实中或通过环境变量OMP_SCHEDULE)时， (第2.3.2节)明确声明默认循环迭代策略是实现定义的，实现可能公开它，也可能不公开它。有什么办法可以解决这个问题吗？为了明确起见，我希望得到规范中定义的内部控制变量def-sched的值。我使用GCC 4.9和OpenMP 4.0在一个POWER8架构上。

浏览 7提问于2015-03-18得票数 0

3回答

递归和迭代的运行时间

我知道有一些算法对于递归和迭代策略都需要相同的运行时间。但我不能决定那个基地。有没有可能同时使用递归和迭代策略的算法总是需要相同的运行时间？

浏览 0提问于2013-03-27得票数 1

2回答

在开放式AI健身房中实现策略迭代方法

、、、

策略迭代就是我目前正在做的工作。我正在尝试使用OpenAI健身房来解决一个简单的问题，比如CartPole或连续的山地车。但是，对于策略迭代，我需要状态之间的转换矩阵和奖励矩阵。

浏览 12提问于2017-08-01得票数 3

1回答

对于跨工作组读取的迭代内核，什么是一个好的策略？

、、

我在内核中编写了一个迭代过程。该过程涉及对全局缓冲器的不同位置的更新。因为我不能在不同的工作组之间同步，所以我能想到的唯一策略是为每次迭代排队一个内核调用，并检查来自主机的结束条件(队列迭代，队列缓冲区读取以检查条件，如果需要，队列迭代，等等) 有没有更好的策略可以遵循？

浏览 0提问于2015-10-22得票数 0

4回答

我正在编写一个函数来迭代地图中的条目。我希望能够像for k, v := range myMap { //...一样干净地处理在迭代时从地图中添加或删除的项，但是我每次迭代只处理一个键/值对，所以我不能使用范围。code which might add/remove item from m here我知道范围是使用“hiter”结构和相关函数(如src/runtime/hashmap.go中定义的)来执行迭代有什么方法可以作为一个具体化的(一流的) Go对象

浏览 7提问于2017-04-04得票数 5

1回答

蒙特卡洛是学习策略还是价值迭代(或其他东西)？

、、、、

我正在上强化学习课程，我不知道如何将策略迭代/值迭代的概念与蒙特卡洛(以及TD/SARSA/Q学习)相结合。

浏览 5提问于2018-05-08得票数 2

1回答

为什么策略迭代比值迭代更快？

我们知道策略迭代直接给出了策略，因此速度更快。但有人能用一些例子来解释吗。

浏览 2提问于2019-11-24得票数 2

回答已采纳

1回答

不同的策略迭代方法可以收敛到不同的最优策略吗？

例如，我尝试在一个随机的MDP上运行lambda迭代迭代。我注意到根据lambda的值得到不同的策略。TD(1)和TD(0)能给出不同的最优策略吗？

浏览 0提问于2020-02-13得票数 0

2回答

理解策略与价值函数强化学习

、、

您有一个策略，它实际上是我所有州的行为的概率分布。价值函数决定了获得最高回报的最佳行动路线。从这个定义中，我很难理解价值迭代是如何工作的，我认为这是因为对价值函数的误解。一个价值函数不是最好的行动过程吗?策略迭代是否只是寻找一个价值函数，它提供了比当前奖励更高的回报，然后立即更新，从而为我的状态(一个新策略)提供了一个新的动作分布，然

浏览 4提问于2017-05-24得票数 1

回答已采纳

2回答

boto3 iam客户端:按名称获取策略

、、

我正在尝试从boto3客户端获取策略，但没有使用策略名称的方法。通过将create_policy方法包装在try-except块中，我可以检查策略是否存在。除了列出所有策略并对其进行迭代之外，是否有任何方法可以使用boto3按名称获取策略。

浏览 0提问于2017-11-22得票数 4

1回答

在自动机上使用策略迭代

、

我读过很多关于如何处理策略迭代的解释，但是我找不到一个例子，所以我现在只能尝试理解policy迭代。每个州旁边的数字显示到达那个州所得到的奖励。折扣值为0.1，初始策略为$\pi(S_0)=Blue$和$\pi(S_1)=Red$ $S_2 $ state是终端状态-游戏结束。这两个可能的动作是蓝色和红色，可以在图像上看到。我只是需要一些东西来帮助我开始，因为没有任何解释真的让我理解如何开始策略迭代直到收敛。

浏览 0提问于2018-06-05得票数 2

回答已采纳

1回答

差分进化中的收敛性

、、、、

有一点背景，我把所有群体成员的目标函数看作是"best1exp“变异策略迭代的函数。 best1exp策略通过以下方式确定新的候选种群 ? 其中b_0是最已知的解，F是突变常数，m^i_r表示第i次总体迭代的随机成员。 best1exp中的"exp“部分是交叉策略，它独立于我所关心的效果(甚至与设置bin=exp的CR=1一起出现)。看起来群体支持两个解决方案，这应该是不可能的，因为所有成员都在每次迭代的“最佳”解决方案周围随机化(我知道有交叉，但忽略这个细节，

浏览 37提问于2020-11-21得票数 0

1回答

Parallel.For域分解C#

、

我想知道：谢谢！

浏览 0提问于2012-03-05得票数 0

回答已采纳

1回答

Java -使用策略实现迭代器

、、、、

我正在尝试为一个复合类实现一个自定义迭代器，并根据客户端希望如何遍历复合结构在迭代器实现中使用不同的策略。Iterator<MyComponent> iterator() { }我希望将MyIteratorStrategy对象作为迭代器构造的一部分进行传递fooStrategy); MyIterator barIterator = myComposite.iterator(barStrategy);

浏览 1提问于2017-11-13得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

策略迭代与值迭代

价值迭代和政策迭代有什么区别？

网格世界中策略迭代背后的直觉

动态规划强化学习中的策略迭代与值迭代混淆

哪些方法使用瀑布策略，哪些方法使用增量策略？

深度优先搜索是一种完整的策略吗？

在OpenMP中获得循环迭代的默认调度

递归和迭代的运行时间

在开放式AI健身房中实现策略迭代方法

对于跨工作组读取的迭代内核，什么是一个好的策略？

如何在Go中创建一个一流的地图迭代器？

蒙特卡洛是学习策略还是价值迭代(或其他东西)？

为什么策略迭代比值迭代更快？

不同的策略迭代方法可以收敛到不同的最优策略吗？

理解策略与价值函数强化学习

boto3 iam客户端:按名称获取策略

在自动机上使用策略迭代

差分进化中的收敛性

Parallel.For域分解C#

Java -使用策略实现迭代器

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐