腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
bellman
最优
方程
与
Q
学习
的
关系
、
、
、
bellman
最优
方程
的
状态-行动
的
最佳值( sutton 2018第63页)是 ?
Q
学习
是 ? 我知道
Q
-learning是无模型
的
。所以它不需要下一个状态
的
转移概率。然而,当s,a给定时,
bellman
方程
的
p( s‘r|s,a)是下一状态s’具有奖励r
的
转移概率。所以我认为要得到一个
Q
(s,a),它需要转
浏览 50
提问于2020-02-02
得票数 3
回答已采纳
1
回答
Q
-
学习
如何处理混合策略?
、
、
我试图了解
Q
学习
是如何处理游戏
的
,其中
最优
策略是混合策略。
Bellman
方程
说,您应该选择max_a(
Q
(s,a)),但这意味着每个s都要执行一个唯一
的
操作。如果你认为问题有混合策略,那么
Q
-
学习
就不合适了吗?
浏览 0
提问于2018-12-20
得票数 2
2
回答
带有策略
的
状态值和状态作用值-带有策略
的
Bellman
方程
、
、
、
、
我刚刚开始深入强化
学习
,我正在尝试打破这个概念。 当我从MDP中实现库存时,我得到2.6a我
的
方程
是这个假设是正确
的
。我看到这个实现2.6a没有状态值函数
的
策略符号。但对我来说,这是没有意义
的
,因为我使用
的
概率,我可以采取不同
的
后续步骤,我可以结束。这和说政策一样,我想。如果是2.6a是正确
的
,那么我是否可以假设其余
的
(2.6b和2
浏览 1
提问于2018-02-22
得票数 3
回答已采纳
5
回答
价值迭代和政策迭代有什么区别?
、
、
、
在强化
学习
中,策略迭代和价值迭代有什么区别? 据我所理解,在值迭代中,您使用
Bellman
方程
来求解
最优
策略,而在策略迭代中,您随机选择一个策略π,并找到该策略
的
回报。我怀疑,如果你在PI中选择一个随机策略π,它如何保证是
最优
策略,即使我们选择了几个随机策略。
浏览 13
提问于2016-05-22
得票数 136
1
回答
学习
为什么在更新过程中减去
Q
(s,a)项?
在
Q
-
学习
算法中,我无法理解$-
Q
(s_t,a_t)$术语
的
含义,也找不到解释。$$
Q
(s_t,a_t) \左侧
Q
(s_t,a_t) +\alpha\左$$
浏览 0
提问于2018-01-29
得票数 3
回答已采纳
1
回答
强化
学习
MDP
的
Q
(s,a)公式理解上
的
困惑?
、
、
、
、
我试图理解为什么策略改进定理可以应用于epsilon-greedy策略
的
证明。 我对证明
的
第一行感到困惑。 那么我们如何才能推导出证明
的
第一行呢?
浏览 18
提问于2018-09-15
得票数 0
1
回答
Bellman
方程
定义
、
、
我试图理解
Bellman
方程
,并面对一些令人困惑
的
时刻。1)在不同
的
来源中,我遇到了
Bellman
方程
的
不同定义。有时它被定义为值状态函数。
q
(s,a) =r+ max(
q
(s',a')) 这两个定义都是正确
的
吗?如何在原论文中引入
Bellman
方程
?
浏览 3
提问于2020-04-22
得票数 0
2
回答
如何在RL中获取
q
值
、
、
、
我不知道如何获得DDQN
的
Q
值。 dqn_next = self.DQN.predictpredict
Q
on next_states版本1:
q
_values[i][actions[i]] = (rewards[i] + (GAMMA * np.amax(tar_next[act
浏览 6
提问于2019-12-22
得票数 1
回答已采纳
1
回答
在
Bellman
方程
中~\epsilon是什么意思?
用于强化
学习
的
这些讲稿幻灯片30包含以下"
Bellman
方程
“: 其他
的
一切对我来说都有意义,但是"\sim\varepsilon“部分意味着什么呢?
浏览 0
提问于2022-07-06
得票数 1
1
回答
为什么需要目标网络?
、
我很关心为什么目标网络在DQN中是必需
的
?我正在读关于“通过深入强化
学习
来控制人
的
层次”
的
论文。使用
bellman
方程
更新
q
-
学习
,
浏览 2
提问于2019-01-17
得票数 28
回答已采纳
1
回答
如何在
Q
-learning中计算MaxQ?
、
、
我正在实现
Q
学习
,特别是
Bellman
方程
。 我使用
的
是指导他解决问题
的
的
版本,但我有一个问题:对于maxQ,我是使用新状态(s')
的
所有
Q
表值(在我
的
例子中是4个可能
的
动作(a'),每个都有各自
的
值)还是采取动作(a')时所有位置
的
Q
表值
的
总和来计算最大奖励换句话说,我是使用我能采取
的
浏览 12
提问于2019-10-20
得票数 4
回答已采纳
1
回答
Double QN是如何工作
的
?
、
、
double QN背后
的
想法是什么?用于计算
Q
值以更新在线网络
的
Bellman
方程
遵循以下
方程
:用于计算原始DQN中
的
Q
值更新
的
Bellman
方程
为: value = re
浏览 3
提问于2020-07-10
得票数 0
1
回答
如何在matlab中找到cvx块中
的
argmax?
、
、
我正在尝试在matlab中找到cvx块中
的
argmax。这只是为了使用线性规划找到
Bellman
方程
的
最优
策略。在下面的代码中,如果我这样做:它会找到列表
Q
的
最大值,并且运行得很好,但只要我这样做:为了找到列表
Q
的
argmax,它会报错: ???在cvx中有没有不同
的
方法来找到argmax?tmp(s_next) = mdp.
浏览 0
提问于2013-09-10
得票数 0
3
回答
为什么
Q
-Learning是非策略
学习
?
、
目前,我正在关注David Silver
的
强化
学习
讲座,在他
的
“无模型控制”幻灯片中,我真的感到困惑。当我查看算法时,它看起来非常简单,就像通过使用最大
Q
(s',a')函数来更新
Q
(s,a)估计值。在幻灯片中,它被称为“我们使用行为策略选择下一个操作”,但在这里我们只选择最大<
浏览 0
提问于2018-12-11
得票数 0
1
回答
什么是路径成本函数和终端成本在双深度
Q
-网络
学习
?
我只熟悉强化
学习
的
基础知识,并遇到两个我不明白
的
术语:路径化成本函数和给定系统
的
终端成本。这些术语
与
Bellman
方程
中
的
类似吗?为上下文附加文件
的
片段。
浏览 7
提问于2022-07-26
得票数 1
1
回答
平均奖励强化
学习
用于平均奖励强化
学习
的
bellman
方程
更新规则是什么?我找了几篇文章,但没有找到任何实际
的
答案。
浏览 0
提问于2019-07-06
得票数 2
回答已采纳
2
回答
强化
学习
类似于随机梯度下降吗?
、
、
、
不是严格
的
数学公式,但是,这两种优化方法会有什么关键
的
重叠原则吗?例如,如何 对于国家,行动和奖励
的
例子为RL?我理解强化
学习
是指:(a)
学习
如何做,如何将情况描绘成行动;(b)从互动中
学习
,以及在这种情况下,从所有可能
的
行动/奖励中获得“有监督
的
培训”培训
浏览 0
提问于2021-11-24
得票数 0
回答已采纳
1
回答
在
Q
-
学习
中,为什么
Q
指标同时包括状态和行为?
、
在
Q
-
学习
中,
Q
是对(状态、行动)组合
的
一系列预期回报.有什么原因不这样做吗?到目前为止,我发现
浏览 0
提问于2023-03-11
得票数 1
回答已采纳
2
回答
强化
学习
是否适用于随机环境?
、
我有一个关于强化
学习
(RL)在我们试图解决
的
问题上
的
适用性
的
基本问题。据我所知,RL可以帮助
学习
如何玩游戏(比如下棋),也可以帮助机器人学会走路。但是所有的游戏都有规则,还有“购物车杆”( OpenAI Gym) --有一些“物理”规则控制着推车杆什么时候会翻倒。对于我们
的
问题,没有规则-环境变化随机(对产品
的
需求)。如果是这样的话-那什么能提高性能呢?进一步
的
细节:-从“环境”中唯一可以得到
的
两种刺激是
浏览 2
提问于2018-10-10
得票数 2
2
回答
DQN --如何为每个行动培训不同
的
输出?
、
、
我正在尝试实现一个Deep网络,但是我仍然停留在你如何训练一个网络来预测多个动作--当你只能收集一个动作
的
数据时。 在本文中,它建议对每个操作使用不同
的
输出。相反,我们使用一种体系结构,其中每个可能
的
动作都有一个单独
的
输出单元,并且只有状态表示是对神经网络
的
输入。输出对应于输入状态
的
各个动作
的
预测
Q
值.因为我们只能访问一次行动,所以我们只知道那次行动
的
损失。(单输出)。但据我所知,为了训练网络,我们需要对所有的输出都有价值。你能用什么
浏览 0
提问于2019-07-23
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
自学习 AI 智能体第一部分:马尔科夫决策过程
自学习AI智能体第一部分:马尔可夫决策过程
浅谈学习C语言与学习C+语言的关系
强化学习的基础知识和6种基本算法解释
一文简述多种强化学习算法,重要概念和术语一览
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券