bellman最优方程与Q学习的关系_与Q学习的定义混淆_学习最优化原理与算法的心得 - 腾讯云开发者社区

、、、

bellman最优方程的状态-行动的最佳值( sutton 2018第63页)是 ? Q学习是 ? 我知道Q-learning是无模型的。所以它不需要下一个状态的转移概率。然而，当s，a给定时，bellman方程的p( s‘r|s，a)是下一状态s’具有奖励r的转移概率。所以我认为要得到一个Q(s，a)，它需要转

浏览 50提问于2020-02-02得票数 3

回答已采纳

1回答

Q-学习如何处理混合策略？

、、

我试图了解Q学习是如何处理游戏的，其中最优策略是混合策略。Bellman方程说，您应该选择max_a(Q(s,a))，但这意味着每个s都要执行一个唯一的操作。如果你认为问题有混合策略，那么Q-学习就不合适了吗？

浏览 0提问于2018-12-20得票数 2

2回答

带有策略的状态值和状态作用值-带有策略的Bellman方程

、、、、

我刚刚开始深入强化学习，我正在尝试打破这个概念。当我从MDP中实现库存时，我得到2.6a我的方程是这个假设是正确的。我看到这个实现2.6a没有状态值函数的策略符号。但对我来说，这是没有意义的，因为我使用的概率，我可以采取不同的后续步骤，我可以结束。这和说政策一样，我想。如果是2.6a是正确的，那么我是否可以假设其余的(2.6b和2

浏览 1提问于2018-02-22得票数 3

回答已采纳

5回答

价值迭代和政策迭代有什么区别？

、、、

在强化学习中，策略迭代和价值迭代有什么区别？据我所理解，在值迭代中，您使用Bellman方程来求解最优策略，而在策略迭代中，您随机选择一个策略π，并找到该策略的回报。我怀疑，如果你在PI中选择一个随机策略π，它如何保证是最优策略，即使我们选择了几个随机策略。

浏览 13提问于2016-05-22得票数 136

1回答

学习为什么在更新过程中减去Q(s，a)项？

在Q-学习算法中，我无法理解$-Q(s_t，a_t)$术语的含义，也找不到解释。$$Q(s_t，a_t) \左侧Q(s_t，a_t) +\alpha\左$$

浏览 0提问于2018-01-29得票数 3

回答已采纳

1回答

强化学习MDP的Q(s，a)公式理解上的困惑？

、、、、

我试图理解为什么策略改进定理可以应用于epsilon-greedy策略的证明。我对证明的第一行感到困惑。那么我们如何才能推导出证明的第一行呢？

浏览 18提问于2018-09-15得票数 0

1回答

Bellman方程定义

、、

我试图理解Bellman方程，并面对一些令人困惑的时刻。1)在不同的来源中，我遇到了Bellman方程的不同定义。有时它被定义为值状态函数。q(s，a) =r+ max(q(s'，a')) 这两个定义都是正确的吗？如何在原论文中引入Bellman方程？

浏览 3提问于2020-04-22得票数 0

2回答

如何在RL中获取q值

、、、

我不知道如何获得DDQN的Q值。 dqn_next = self.DQN.predictpredict Q on next_states版本1: q_values[i][actions[i]] = (rewards[i] + (GAMMA * np.amax(tar_next[act

浏览 6提问于2019-12-22得票数 1

回答已采纳

1回答

在Bellman方程中~\epsilon是什么意思？

用于强化学习的这些讲稿幻灯片30包含以下"Bellman方程“：其他的一切对我来说都有意义，但是"\sim\varepsilon“部分意味着什么呢？

浏览 0提问于2022-07-06得票数 1

1回答

为什么需要目标网络？

、

我很关心为什么目标网络在DQN中是必需的？我正在读关于“通过深入强化学习来控制人的层次”的论文。使用bellman方程更新q-学习，

浏览 2提问于2019-01-17得票数 28

回答已采纳

1回答

如何在Q-learning中计算MaxQ？

、、

我正在实现Q学习，特别是Bellman方程。我使用的是指导他解决问题的的版本，但我有一个问题:对于maxQ，我是使用新状态(s')的所有Q表值(在我的例子中是4个可能的动作(a')，每个都有各自的值)还是采取动作(a')时所有位置的Q表值的总和来计算最大奖励换句话说，我是使用我能采取的

浏览 12提问于2019-10-20得票数 4

回答已采纳

1回答

Double QN是如何工作的？

、、

double QN背后的想法是什么？用于计算Q值以更新在线网络的Bellman方程遵循以下方程：用于计算原始DQN中的Q值更新的Bellman方程为： value = re

浏览 3提问于2020-07-10得票数 0

1回答

如何在matlab中找到cvx块中的argmax？

、、

我正在尝试在matlab中找到cvx块中的argmax。这只是为了使用线性规划找到Bellman方程的最优策略。在下面的代码中，如果我这样做：它会找到列表Q的最大值，并且运行得很好，但只要我这样做：为了找到列表Q的argmax，它会报错： ???在cvx中有没有不同的方法来找到argmax？tmp(s_next) = mdp.

浏览 0提问于2013-09-10得票数 0

3回答

为什么Q-Learning是非策略学习？

、

目前，我正在关注David Silver的强化学习讲座，在他的“无模型控制”幻灯片中，我真的感到困惑。当我查看算法时，它看起来非常简单，就像通过使用最大Q(s'，a')函数来更新Q(s，a)估计值。在幻灯片中，它被称为“我们使用行为策略选择下一个操作”，但在这里我们只选择最大<

浏览 0提问于2018-12-11得票数 0

1回答

什么是路径成本函数和终端成本在双深度Q-网络学习？

我只熟悉强化学习的基础知识，并遇到两个我不明白的术语:路径化成本函数和给定系统的终端成本。这些术语与Bellman方程中的类似吗？为上下文附加文件的片段。

浏览 7提问于2022-07-26得票数 1

1回答

平均奖励强化学习

用于平均奖励强化学习的bellman方程更新规则是什么？我找了几篇文章，但没有找到任何实际的答案。

浏览 0提问于2019-07-06得票数 2

回答已采纳

2回答

强化学习类似于随机梯度下降吗？

、、、

不是严格的数学公式，但是，这两种优化方法会有什么关键的重叠原则吗？例如，如何对于国家，行动和奖励的例子为RL？我理解强化学习是指：(a)学习如何做，如何将情况描绘成行动；(b)从互动中学习，以及在这种情况下，从所有可能的行动/奖励中获得“有监督的培训”培训

浏览 0提问于2021-11-24得票数 0

回答已采纳

1回答

在Q-学习中，为什么Q指标同时包括状态和行为？

、

在Q-学习中，Q是对(状态、行动)组合的一系列预期回报.有什么原因不这样做吗？到目前为止，我发现

浏览 0提问于2023-03-11得票数 1

回答已采纳

2回答

我有一个关于强化学习(RL)在我们试图解决的问题上的适用性的基本问题。据我所知，RL可以帮助学习如何玩游戏(比如下棋)，也可以帮助机器人学会走路。但是所有的游戏都有规则，还有“购物车杆”( OpenAI Gym) --有一些“物理”规则控制着推车杆什么时候会翻倒。对于我们的问题，没有规则-环境变化随机(对产品的需求)。如果是这样的话-那什么能提高性能呢？进一步的细节：-从“环境”中唯一可以得到的两种刺激是

浏览 2提问于2018-10-10得票数 2

2回答

DQN --如何为每个行动培训不同的输出？

、、

我正在尝试实现一个Deep网络，但是我仍然停留在你如何训练一个网络来预测多个动作--当你只能收集一个动作的数据时。在本文中，它建议对每个操作使用不同的输出。相反，我们使用一种体系结构，其中每个可能的动作都有一个单独的输出单元，并且只有状态表示是对神经网络的输入。输出对应于输入状态的各个动作的预测Q值.因为我们只能访问一次行动，所以我们只知道那次行动的损失。(单输出)。但据我所知，为了训练网络，我们需要对所有的输出都有价值。你能用什么

浏览 0提问于2019-07-23得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云