sutton 强化学习中文版 - 腾讯云开发者社区

、

我正在做一个边项目，就是建立一个倒立摆问题的模型，然后用一个强化学习算法来解决它，最显著的是Q-学习。我已经为网格世界设计了一个简单的MDP解决程序--简单的东西。

浏览 7提问于2013-01-22得票数 0

2回答

强化学习:强化算法中的折扣奖励

、

我正在研究强化学习的强化算法。我很难理解如何计算奖励。📷从步骤t返回到步骤T1，即R_t + R_(t+1) +.

浏览 0提问于2018-09-13得票数 4

回答已采纳

1回答

如何应用强化学习？

、

我从概念上理解它。你有一个代理和一个环境。然后你有一组状态，每个状态都有一个值。然后，智能体要么选择“探索”，要么选择“利用”，并根据发生的事情修改其知识。我正在试着为俄罗斯方块写一个RL代理，但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我，我会很感激的。谢谢:)

浏览 1提问于2013-11-13得票数 2

4回答

R中的n-武装匪徒模拟

、、

我正在使用Sutton &Barto的电子书“强化学习:学习强化学习的介绍”。我遇到了一些问题，试图在上模拟结果(图)。更具体地说，如何模拟每个任务的greedy值？

浏览 9提问于2013-07-29得票数 6

回答已采纳

1回答

Sutton:强化学习-笔记参考请求

有没有人知道这本书中的一些注释？它相当长，而且信息不是很密集，所以如果有一个更压缩的版本会更好。

浏览 18提问于2018-07-31得票数 0

回答已采纳

1回答

一个问题:我是否有可能创造一个人工智能来学习玩我没有创造的游戏？

、、

主要是，我有一个问题，我在任何地方都找不到答案，关于一个人工智能机器学习游戏。我是否有可能创建一个AI，它可以学习一个我自己没有创建的游戏，没有任何源代码或API？我指的是打开一个游戏，而不是一个下载的游戏，一个在google上可用的游戏，如上面提到的，运行我的代码，它将开始玩和学习这个游戏。只是创建一个算法来学习多个简单的2D谷歌游戏，这样的事情是否有可能与图像处理？

浏览 0提问于2019-09-20得票数 1

2回答

四连排游戏强化学习的最佳算法

、

对于四连胜的游戏，强化学习的最佳算法是什么？我想构建一个四连排的游戏，它将使用RL算法之一来玩: Q-Learning，MinMax等。考虑到我使用的是Java，什么是最好的。

浏览 1提问于2012-01-08得票数 0

回答已采纳

2回答

为什么我们在非平稳强化学习中将最近的奖励加权得更高？

、、

Barto和Sutton的《强化学习导论》一书中提到了以下关于非平稳RL问题的内容： “我们经常遇到强化学习问题，这些问题实际上是非平稳的。在这种情况下，将最近的奖励比长期奖励更重地加权是有意义的。”

浏览 1提问于2016-05-08得票数 2

1回答

具有近似意义的政策预测函数的选择

、

我目前正在阅读萨顿关于强化学习的介绍。在进入第10章(基于近似的政策预测)之后，我现在想知道如何选择函数q的形式，其中最优权重w将被近似。我指的是Sutton下面伪代码的第一行:如何选择一个好的可微函数

浏览 6提问于2017-07-25得票数 4

回答已采纳

2回答

广义优势评估是如何工作的？

、

我已经尝试将盖伊添加到我的A2C实现中已有一段时间了，但我似乎不太明白它是如何工作的。我试着自己计算数学，最后我在整个展示中有一个优势，对吗？通常，我们在推出时的每一个时间步骤都有一个优势。有人能解释一下GAE的直觉吗？

浏览 0提问于2018-06-01得票数 11

回答已采纳

1回答

Sutton和Barto的矩阵表示法

、、

206在Barto和Sutton的强化学习中，关于标量积的结果有一种奇怪的说法：在我的解释中，A是二维向量的标量乘积的期望:哪个应该是标量，对吗？那么他们是如何得到dxd矩阵的呢？

浏览 0提问于2020-09-17得票数 1

回答已采纳

3回答

为什么RL被称为“强化”学习？

、、

我理解为什么机器学习是这样命名的，除此之外，还有监督学习和无监督学习背后的术语。那么，关于强化学习，reinforced是什么？

浏览 63提问于2018-05-28得票数 4

回答已采纳

2回答

在开放式AI健身房中实现策略迭代方法

、、、

我目前正在阅读Sutton & Barto的“强化学习”，我正在尝试自己编写一些方法。策略迭代就是我目前正在做的工作。

浏览 12提问于2017-08-01得票数 3

1回答

如何防止使用lambda =1的SARSA中的资格跟踪对大量访问的状态行为对发生爆炸？

、、

我在用Windy用lambda =1测试SARSA，如果探测导致相同的状态-动作对在达到目标之前被多次访问，那么资格跟踪就会在没有任何衰减的情况下每次增加，因此它会爆炸并导致一切溢出。如何才能避免这种情况？

浏览 4提问于2017-07-24得票数 0

回答已采纳

1回答

如何在恢复学习中设置自己的价值函数？

、

我刚开始使用强化学习，我只读了R.Sutton的前几章(所以我有一个小的理论背景)。我正在寻找网格(量子计算机)上点(量子位)的最佳配置。据我所知，我不需要Q-学习或深强化学习，因为我只需要学习策略？我也不会介意使用毕道尔或其他什么的。有了这么少的信息，你建议选择什么？更重要的是，我如何设置自己的价值函数？

浏览 8提问于2022-09-21得票数 0

1回答

我正在尝试为Othello构建一个时差学习代理。虽然我的其余实现似乎可以正常运行，但我想知道用于训练网络的损失函数。在Sutton的“强化学习:简介”一书中，均方误差(MSVE )被描述为标准损失函数。它基本上是均方误差乘以开策略分布。(所有状态的求和s( onPolicyDistribution(s) * V(s) - V'(s，w)²)) 我现在的问题是:当我的策略是一个学习的值函数的贪婪函数时，我如何在策略分布上获得它？

浏览 5提问于2017-10-11得票数 3

5回答

如何运行Sutton和Barton的“强化学习”Lisp代码？

、、、、

for other options.不巧的是，我仍然在学习lisp，所以虽然我感觉到有些东西没有被完全定义，但我并不真正理解如何读取这些错误消息。

浏览 8提问于2009-02-10得票数 7

回答已采纳

1回答

带规划的Dyna-Q与n步Q-learning

、

我正在阅读Sutton和Barto的强化学习，对于Dyna-Q的一个例子，他们使用了一个迷宫问题。算例表明，在n=50步规划下，算法仅需3集即可达到最优路径。这是对50步Q学习的改进吗？看起来你真的只是在每集运行一堆50步的Q学习算法，所以说它在3集内找到最优路径是误导的。另外，我想最大的问题是，当你没有环境模型时，我认为Dyna-Q是有用的，但在这个例子中，我们没有环境模型吗？

浏览 37提问于2019-12-20得票数 0

回答已采纳

2回答