腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
策略
迭代
与值
迭代
、
在强化学习中,我试图理解
策略
迭代
和价值
迭代
之间的区别。这方面有一些一般性的答案,但我有两个具体的
问题
,我找不到答案。 1)我听说政策
迭代
“向前工作”,而价值
迭代
“向后工作”。这是什么意思?我认为这两种方法只需取每一种状态,然后查看它所能达到的所有其他状态,并从中计算值--要么将
策略
的动作分布(
策略
迭代
)边缘化,要么通过对动作值(值
迭代
)的讨论。2)
策略
迭代
需要在
策略</em
浏览 3
提问于2017-05-02
得票数 8
回答已采纳
5
回答
价值
迭代
和政策
迭代
有什么区别?
、
、
、
在强化学习中,
策略
迭代
和价值
迭代
有什么区别? 据我所理解,在值
迭代
中,您使用Bellman方程来求解最优
策略
,而在
策略
迭代
中,您随机选择一个
策略
π,并找到该
策略
的回报。我怀疑,如果你在PI中选择一个随机
策略
π,它如何保证是最优
策略
,即使我们选择了几个随机
策略
。
浏览 13
提问于2016-05-22
得票数 136
1
回答
网格世界中
策略
迭代
背后的直觉
、
、
我应该提出一个MDP代理,它使用
策略
迭代
和值
迭代
进行分配,并将其性能与状态的效用值进行比较。有人能提供一些关于
策略
迭代
如何工作的直觉吗?
浏览 2
提问于2012-10-29
得票数 3
1
回答
动态规划强化学习中的
策略
迭代
与值
迭代
混淆
、
在编码过程中,我理解的价值
迭代
是我们需要一个固定的
策略
。根据该
策略
,将计算每个状态的值函数。对吗? 但在
策略
迭代
中,
策略
会不时发生变化。我说的对吗?
浏览 0
提问于2015-08-06
得票数 0
回答已采纳
3
回答
哪些方法使用瀑布
策略
,哪些方法使用增量
策略
?
、
、
、
我知道瀑布和增量
策略
的区别。但是我有点困惑,因为我看到了一些使用增量或
迭代
方法的方法,但是我看不到瀑布
策略
的任何例子。例如,Scrum是一种使用增量或
迭代
策略
的方法,但是有使用瀑布
策略
的方法的例子吗?还是瀑布本身就是一种方法论?
浏览 0
提问于2020-05-04
得票数 -2
回答已采纳
1
回答
深度优先搜索是一种完整的
策略
吗?
问题
之一是“对每个
策略
的评论,这个
策略
是一个完整的
策略
吗?”二:
迭代
深化搜索现在我的回答是,没有深度优先不是因为它搜索最近生成的节点。至于
迭代
深化,id说是,因为它的最大深度是通过重复而增加的。最后,我完全肯定呼吸第一是一个完整的方法。 如果有人能证实我的答案,或者向我解释我哪里出了
问题
,那就太好了。
浏览 0
提问于2016-05-05
得票数 0
回答已采纳
1
回答
在OpenMP中获得循环
迭代
的默认调度
在OpenMP中,当您不指定任何循环
迭代
策略
(在代码务实中或通过环境变量OMP_SCHEDULE)时, (第2.3.2节)明确声明默认循环
迭代
策略
是实现定义的,实现可能公开它,也可能不公开它。有什么办法可以解决这个
问题
吗?为了明确起见,我希望得到规范中定义的内部控制变量def-sched的值。 我使用GCC 4.9和OpenMP 4.0在一个POWER8架构上。
浏览 7
提问于2015-03-18
得票数 0
3
回答
递归和
迭代
的运行时间
我知道有一些算法对于递归和
迭代
策略
都需要相同的运行时间。但我不能决定那个基地。 有没有可能同时使用递归和
迭代
策略
的算法总是需要相同的运行时间?
浏览 0
提问于2013-03-27
得票数 1
2
回答
在开放式AI健身房中实现
策略
迭代
方法
、
、
、
策略
迭代
就是我目前正在做的工作。我正在尝试使用OpenAI健身房来解决一个简单的
问题
,比如CartPole或连续的山地车。 但是,对于
策略
迭代
,我需要状态之间的转换矩阵和奖励矩阵。
浏览 12
提问于2017-08-01
得票数 3
1
回答
对于跨工作组读取的
迭代
内核,什么是一个好的
策略
?
、
、
我在内核中编写了一个
迭代
过程。该过程涉及对全局缓冲器的不同位置的更新。因为我不能在不同的工作组之间同步,所以我能想到的唯一
策略
是为每次
迭代
排队一个内核调用,并检查来自主机的结束条件(队列
迭代
,队列缓冲区读取以检查条件,如果需要,队列
迭代
,等等) 有没有更好的
策略
可以遵循?
浏览 0
提问于2015-10-22
得票数 0
4
回答
如何在Go中创建一个一流的地图
迭代
器?
、
、
我正在编写一个函数来
迭代
地图中的条目。我希望能够像for k, v := range myMap { //...一样干净地处理在
迭代
时从地图中添加或删除的项,但是我每次
迭代
只处理一个键/值对,所以我不能使用范围。code which might add/remove item from m here我知道范围是使用“hiter”结构和相关函数(如src/runtime/hashmap.go中定义的)来执行
迭代
有什么方法可以作为一个具体化的(一流的) Go对象
浏览 7
提问于2017-04-04
得票数 5
1
回答
蒙特卡洛是学习
策略
还是价值
迭代
(或其他东西)?
、
、
、
、
我正在上强化学习课程,我不知道如何将
策略
迭代
/值
迭代
的概念与蒙特卡洛(以及TD/SARSA/Q学习)相结合。
浏览 5
提问于2018-05-08
得票数 2
1
回答
为什么
策略
迭代
比值
迭代
更快?
我们知道
策略
迭代
直接给出了
策略
,因此速度更快。但有人能用一些例子来解释吗。
浏览 2
提问于2019-11-24
得票数 2
回答已采纳
1
回答
不同的
策略
迭代
方法可以收敛到不同的最优
策略
吗?
例如,我尝试在一个随机的MDP上运行lambda
迭代
迭代
。我注意到根据lambda的值得到不同的
策略
。TD(1)和TD(0)能给出不同的最优
策略
吗?
浏览 0
提问于2020-02-13
得票数 0
2
回答
理解
策略
与价值函数强化学习
、
、
您有一个
策略
,它实际上是我所有州的行为的概率分布。价值函数决定了获得最高回报的最佳行动路线。从这个定义中,我很难理解价值
迭代
是如何工作的,我认为这是因为对价值函数的误解。 一个价值函数不是最好的行动过程吗?
策略
迭代
是否只是寻找一个价值函数,它提供了比当前奖励更高的回报,然后立即更新,从而为我的状态(一个新
策略
)提供了一个新的动作分布,然
浏览 4
提问于2017-05-24
得票数 1
回答已采纳
2
回答
boto3 iam客户端:按名称获取
策略
、
、
我正在尝试从boto3客户端获取
策略
,但没有使用
策略
名称的方法。通过将create_policy方法包装在try-except块中,我可以检查
策略
是否存在。除了列出所有
策略
并对其进行
迭代
之外,是否有任何方法可以使用boto3按名称获取
策略
。
浏览 0
提问于2017-11-22
得票数 4
1
回答
在自动机上使用
策略
迭代
、
我读过很多关于如何处理
策略
迭代
的解释,但是我找不到一个例子,所以我现在只能尝试理解policy
迭代
。每个州旁边的数字显示到达那个州所得到的奖励。折扣值为0.1,初始
策略
为$\pi(S_0)=Blue$和$\pi(S_1)=Red$ $S_2 $ state是终端状态-游戏结束。这两个可能的动作是蓝色和红色,可以在图像上看到。我只是需要一些东西来帮助我开始,因为没有任何解释真的让我理解如何开始
策略
迭代
直到收敛。
浏览 0
提问于2018-06-05
得票数 2
回答已采纳
1
回答
差分进化中的收敛性
、
、
、
、
有一点背景,我把所有群体成员的目标函数看作是"best1exp“变异
策略
迭代
的函数。 best1exp
策略
通过以下方式确定新的候选种群 ? 其中b_0是最已知的解,F是突变常数,m^i_r表示第i次总体
迭代
的随机成员。 best1exp中的"exp“部分是交叉
策略
,它独立于我所关心的效果(甚至与设置bin=exp的CR=1一起出现)。看起来群体支持两个解决方案,这应该是不可能的,因为所有成员都在每次
迭代
的“最佳”解决方案周围随机化(我知道有交叉,但忽略这个细节,
浏览 37
提问于2020-11-21
得票数 0
1
回答
Parallel.For域分解C#
、
我想知道:谢谢!
浏览 0
提问于2012-03-05
得票数 0
回答已采纳
1
回答
Java -使用
策略
实现
迭代
器
、
、
、
、
我正在尝试为一个复合类实现一个自定义
迭代
器,并根据客户端希望如何遍历复合结构在
迭代
器实现中使用不同的
策略
。Iterator<MyComponent> iterator() { }我希望将MyIteratorStrategy对象作为
迭代
器构造的一部分进行传递fooStrategy); MyIterator barIterator = myComposite.iterator(barStrategy);
浏览 1
提问于2017-11-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
揭秘产品迭代计划制定:从0到1打造完美迭代策略
深科达的命门:技术迭代风险与激进经营策略
策略梯度搜索:不使用搜索树的在线规划和专家迭代
谷器MES丨生产调度问题处理策略
可迭代对象和迭代器
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券