腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
合并
不是动态规划
我读过以下几个字: 为什么
合并
和快速排序不是动态规划?我认为
合并
也可以分为小
问题
和小
问题
,然后做同样的事情等等。Di
浏览 1
提问于2013-03-24
得票数 16
回答已采纳
1
回答
tf-代理的“政策”和“`collect_policy`”有什么区别?
、
、
、
、
有一种不同的
策略
,称为collect_policy用于培训,而不是用于评估(policy)。agent.policy -用于评估和部署的主要
策略
。
策略
:表示代理当前
策略
的tf_policy.Base的实例。collect_policy:表示代理当前数据收集
策略
浏览 0
提问于2020-04-24
得票数 5
1
回答
不同的
策略
迭代方法可以收敛到不同的
最优
策略
吗?
我注意到根据lambda的值得到不同的
策略
。TD(1)和TD(0)能给出不同的
最优
策略
吗? 更新:增加我的初始值函数在两种情况下都会得到相同的结果。
浏览 0
提问于2020-02-13
得票数 0
2
回答
强化学习效果
、
我将更具体地说明:让我们在连续状态空间中有一个时间序列
问题
,有限的动作数,以及
策略
函数的线性逼近器。所以我遵循一个
算法
来找到最佳
策略
,在这个特殊情况下,我考虑的线性函数的
最优
值。现在我的疑问是:所谓的最佳
策略
是在应用
算法
的过程中找到的
策略
,或者我必须获得最终的
最优
值,对于每一段时间,我必须使用它们来找到哪种行动使动作-值函数最大化?我认为这个
问题
的答案是否定的,但如果有人能证实这一点,我将不胜感激。 (为了更好地解释
浏览 0
提问于2020-05-06
得票数 1
回答已采纳
1
回答
使用时态差异学习有什么意义呢?
、
据我所知,对于特定的
策略
\pi,时间差异学习让我们计算该
策略
之后的期望值\pi,但是知道特定
策略
的意义是什么呢? 难道我们不应该为给定的环境找到
最优
的
策略
吗?
浏览 6
提问于2017-11-26
得票数 0
回答已采纳
1
回答
目标函数(SA)和价值函数(RL)的区别是什么?
、
、
理想情况下,目标函数的最小值对应于
最优
解。 在强化学习(RL)中,我们有一个值函数v( s ),它给出了在当前状态下它有多好的值。所以我的
问题
是,E(s)和v(s)之间有什么区别?
浏览 9
提问于2022-06-02
得票数 3
2
回答
强化学习:为什么贪婪地用
最优
值函数给你
最优
的
策略
?
、
、
、
关于强化学习的大卫·希尔弗课程解释了如何从
最优
值函数中获得
最优
策略
。📷奖励方面也出现了类似的
问题
浏览 0
提问于2020-02-18
得票数 1
1
回答
Q-学习
算法
会变得过度训练吗?
、
、
证明了Q-学习
算法
收敛于
最优
策略
的Qs是唯一的。那么,得出Q-学习
算法
不能被过度训练的结论是正确的吗?
浏览 3
提问于2016-09-04
得票数 1
回答已采纳
4
回答
O(nlogn)就地排序
算法
、
、
、
、
这个
问题
是在我的计算机科学入门期中考试准备的。 有一种
算法
可以在O(n)时间内找到列表中的kth元素,并假定它已经就位。使用该
算法
,编写一个在最坏情况下运行的就地排序
算法
O(n*log(n)),并证明了它的有效性。既然这个
算法
存在,为什么还会使用mergesort呢?我假设我必须编写一些快速排序
算法
的替代形式,这是O(n^2)的最坏情况,因为
合并
排序不是就地
算法
。让我困惑的是在列表中找到kth元素的给定
算法
。通过数组的元素进行简单的
浏览 3
提问于2015-10-21
得票数 2
3
回答
这个
算法
使用DP吗?
、
因此,我最近一直在学习动态规划(,DP ),当我遇到以下
问题
时,我决定使用DP,但由于我是
算法
初学者,我不确定这是否是DP的一个有效例子。 给出一个数组符号。
浏览 1
提问于2020-07-09
得票数 2
回答已采纳
1
回答
政策外的学习方法比政策上的方法好吗?
、
我无法理解on
策略
方法(如A3C)和非
策略
方法(如DDPG)之间的根本区别。据我所知,不管行为
策略
如何,非
策略
方法都可以学习
最优
策略
。它可以通过观察环境中的任何轨迹来学习。它说,Q-learning将学习沿着悬崖行走的最佳
策略
,而SARSA将在使用epsilon-greedy
策略
时学会选择更安全的方法。但是既然Q-learning已经告诉我们
最优
策略
,为什么我们不直接遵循这个
策略
而不是继续探索呢?
浏览 3
提问于2017-03-05
得票数 5
回答已采纳
1
回答
边可被障碍物遮挡的图搜索
算法
、
、
、
、
实现
算法
的简易性和执行时间非常重要,因此如果
算法
更简单、更快,我愿意牺牲
最优
解决方案来换取接近
最优
的解决方案。 一条边可以被障碍物挡住。一条边被阻挡的概率是预先知道的。阻塞是相互独立的。我的
问题
类似于加拿大的旅行者
问题
,但我的理解是,随机编程
问题
的解决方案相对难以实现,并且找到
最优
策略
所需的时间可能相对较长。目前,我正在考虑将
问题
转换为确定性
问题
,以便可以使用像A*这样的搜索
算法
来
浏览 4
提问于2013-03-24
得票数 1
3
回答
Q-learning和SARSA与贪婪选择是等价的吗?
、
、
如果使用贪婪选择
策略
,也就是说,动作值最高的动作被100%选择,那么SARSA和Q-learning是否相同?
浏览 7
提问于2015-09-29
得票数 9
回答已采纳
1
回答
动态规划:我有重叠子
问题
吗?
、
、
,然后递归地找到子
问题
的
最优
解来解决,那么它就被称为有
最优
子结构。..。要使动态规划适用,一个
问题
必须具备两个关键属性:
最优
子结构和重叠子
问题
。如果一个
问题
可以通过组合不重叠子
问题
的
最优
解来解决,那么这种
策略
被称为“分而治之”。这就是
合并
排序和快速排序不被归类为动态规划
问题
的原因。
最优
子结构是指通过优化子
问题
的
最优
解的组合,得到
浏览 4
提问于2018-10-11
得票数 1
2
回答
使用贪心
算法
进行优化
、
、
如果一个优化
问题
可以用贪心方法解决,那么它的所有
最优
解是否都必须包含第一个选择(即贪婪选择)?
浏览 2
提问于2013-06-17
得票数 2
回答已采纳
5
回答
价值迭代和政策迭代有什么区别?
、
、
、
在强化学习中,
策略
迭代和价值迭代有什么区别? 据我所理解,在值迭代中,您使用Bellman方程来求解
最优
策略
,而在
策略
迭代中,您随机选择一个
策略
π,并找到该
策略
的回报。我怀疑,如果你在PI中选择一个随机
策略
π,它如何保证是
最优
策略
,即使我们选择了几个随机
策略
。
浏览 13
提问于2016-05-22
得票数 136
1
回答
为什么需要PolicySet和
策略
?
、
、
、
、
我阅读了3.0规范,并在这里提出了一个
问题
: 我发现PolicySet和Policy有许多相似之处,比如组合
算法
等。为了适应更多的层次,PolicySet也可以自我约束。如果是这样,为什么不将PolicySet和 Policy
合并
成一个名为Policy的概念,并使
策略
包含其他
策略
和规则?也没有太大区别,除了Rule具有条件<code>E 223</code>和<code>E 124</code>效果<code>e 225&l
浏览 8
提问于2015-12-25
得票数 2
回答已采纳
2
回答
Python 3:扁平字典,包括列表
、
、
、
、
]退出: "a": 1, "d.0": 3, "e.0.f": 5,} 但是,我们需要
合并
列表中的数据集(如示例中所示)。例如,列表中的第一条应与列表中的第一
浏览 15
提问于2022-10-21
得票数 2
回答已采纳
1
回答
连续时间有限视界MDP
、
、
、
、
有
算法
来求解有限时间半马尔可夫决策过程吗? 我想找出具有有限作用空间、有限状态空间和最后期限的序贯决策
问题
的
最优
策略
。关键的是,不同的动作需要不同的时间,对于其中一个动作,这个持续时间是随机的。我知道无限视界半MDPs的
算法
,但我在有限水平半MDPs上找不到任何工作。这类
问题
以前学过吗?
浏览 1
提问于2016-05-03
得票数 0
回答已采纳
3
回答
仍然排序的
最优
整数编码
、
、
、
这里的
最优
性假设是,当n< m时,非负数n比数m更频繁。 我最感兴趣的是,是否有一种(字节可比的)编码,它适用于整数,n的频率要比m,如果要比m,则要高得多。
浏览 6
提问于2012-05-20
得票数 10
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
合并两个有序链表:LeetCode问题解析及最优算法实现
新闻推荐算法的5大问题+4大优化策略
每个开发人员都应该知道的 6 种算法
游戏人工智能 读书笔记(六)AI算法简介——演化算法
IBM Watson提出人机推理网络HuMaINs,结合人机两者优势
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券