腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1650)
视频
沙龙
1
回答
购物车极点w/
强化
学习
框架
、
我正在做一个边项目,就是建立一个倒立摆问题的模型,然后用一个
强化
学习
算法来解决它,最显著的是Q-
学习
。我已经为网格世界设计了一个简单的MDP解决程序--简单的东西。
浏览 7
提问于2013-01-22
得票数 0
2
回答
强化
学习
:
强化
算法中的折扣奖励
、
我正在研究
强化
学习
的
强化
算法。我很难理解如何计算奖励。📷从步骤t返回到步骤T1,即R_t + R_(t+1) +.
浏览 0
提问于2018-09-13
得票数 4
回答已采纳
1
回答
如何应用
强化
学习
?
、
我从概念上理解它。你有一个代理和一个环境。然后你有一组状态,每个状态都有一个值。然后,智能体要么选择“探索”,要么选择“利用”,并根据发生的事情修改其知识。我正在试着为俄罗斯方块写一个RL代理,但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我,我会很感激的。谢谢:)
浏览 1
提问于2013-11-13
得票数 2
4
回答
R中的n-武装匪徒模拟
、
、
我正在使用
Sutton
&Barto的电子书“
强化
学习
:
学习
强化
学习
的介绍”。我遇到了一些问题,试图在上模拟结果(图)。 更具体地说,如何模拟每个任务的greedy值?
浏览 9
提问于2013-07-29
得票数 6
回答已采纳
1
回答
Sutton
:
强化
学习
-笔记参考请求
有没有人知道这本书中的一些注释?它相当长,而且信息不是很密集,所以如果有一个更压缩的版本会更好。
浏览 18
提问于2018-07-31
得票数 0
回答已采纳
1
回答
一个问题:我是否有可能创造一个人工智能来
学习
玩我没有创造的游戏?
、
、
主要是,我有一个问题,我在任何地方都找不到答案,关于一个人工智能机器
学习
游戏。 我是否有可能创建一个AI,它可以
学习
一个我自己没有创建的游戏,没有任何源代码或API?我指的是打开一个游戏,而不是一个下载的游戏,一个在google上可用的游戏,如上面提到的,运行我的代码,它将开始玩和
学习
这个游戏。只是创建一个算法来
学习
多个简单的2D谷歌游戏,这样的事情是否有可能与图像处理?
浏览 0
提问于2019-09-20
得票数 1
2
回答
四连排游戏
强化
学习
的最佳算法
、
对于四连胜的游戏,
强化
学习
的最佳算法是什么?我想构建一个四连排的游戏,它将使用RL算法之一来玩: Q-Learning,MinMax等。 考虑到我使用的是Java,什么是最好的。
浏览 1
提问于2012-01-08
得票数 0
回答已采纳
2
回答
为什么我们在非平稳
强化
学习
中将最近的奖励加权得更高?
、
、
Barto和
Sutton
的《
强化
学习
导论》一书中提到了以下关于非平稳RL问题的内容: “我们经常遇到
强化
学习
问题,这些问题实际上是非平稳的。在这种情况下,将最近的奖励比长期奖励更重地加权是有意义的。”
浏览 1
提问于2016-05-08
得票数 2
1
回答
具有近似意义的政策预测函数的选择
、
我目前正在阅读萨顿关于
强化
学习
的介绍。在进入第10章(基于近似的政策预测)之后,我现在想知道如何选择函数q的形式,其中最优权重w将被近似。我指的是
Sutton
下面伪代码的第一行:如何选择一个好的可微函数
浏览 6
提问于2017-07-25
得票数 4
回答已采纳
2
回答
广义优势评估是如何工作的?
、
我已经尝试将盖伊添加到我的A2C实现中已有一段时间了,但我似乎不太明白它是如何工作的。我试着自己计算数学,最后我在整个展示中有一个优势,对吗?通常,我们在推出时的每一个时间步骤都有一个优势。 有人能解释一下GAE的直觉吗?
浏览 0
提问于2018-06-01
得票数 11
回答已采纳
1
回答
Sutton
和Barto的矩阵表示法
、
、
206在Barto和
Sutton
的
强化
学习
中,关于标量积的结果有一种奇怪的说法:在我的解释中,A是二维向量的标量乘积的期望:哪个应该是标量,对吗?那么他们是如何得到dxd矩阵的呢?
浏览 0
提问于2020-09-17
得票数 1
回答已采纳
3
回答
为什么RL被称为“
强化
”
学习
?
、
、
我理解为什么机器
学习
是这样命名的,除此之外,还有监督
学习
和无监督
学习
背后的术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
2
回答
在开放式AI健身房中实现策略迭代方法
、
、
、
我目前正在阅读
Sutton
& Barto的“
强化
学习
”,我正在尝试自己编写一些方法。 策略迭代就是我目前正在做的工作。
浏览 12
提问于2017-08-01
得票数 3
1
回答
如何防止使用lambda =1的SARSA中的资格跟踪对大量访问的状态行为对发生爆炸?
、
、
我在用Windy用lambda =1测试SARSA,如果探测导致相同的状态-动作对在达到目标之前被多次访问,那么资格跟踪就会在没有任何衰减的情况下每次增加,因此它会爆炸并导致一切溢出。如何才能避免这种情况?
浏览 4
提问于2017-07-24
得票数 0
回答已采纳
1
回答
如何在恢复
学习
中设置自己的价值函数?
、
我刚开始使用
强化
学习
,我只读了R.
Sutton
的前几章(所以我有一个小的理论背景)。我正在寻找网格(量子计算机)上点(量子位)的最佳配置。据我所知,我不需要Q-
学习
或深
强化
学习
,因为我只需要
学习
策略? 我也不会介意使用毕道尔或其他什么的。有了这么少的信息,你建议选择什么?更重要的是,我如何设置自己的价值函数?
浏览 8
提问于2022-09-21
得票数 0
1
回答
在
强化
学习
中实现损失函数(MSVE)
、
、
、
、
我正在尝试为Othello构建一个时差
学习
代理。虽然我的其余实现似乎可以正常运行,但我想知道用于训练网络的损失函数。在
Sutton
的“
强化
学习
:简介”一书中,均方误差(MSVE )被描述为标准损失函数。它基本上是均方误差乘以开策略分布。(所有状态的求和s( onPolicyDistribution(s) * V(s) - V'(s,w)²)) 我现在的问题是:当我的策略是一个
学习
的值函数的贪婪函数时,我如何在策略分布上获得它?
浏览 5
提问于2017-10-11
得票数 3
5
回答
如何运行
Sutton
和Barton的“
强化
学习
”Lisp代码?
、
、
、
、
for other options.不巧的是,我仍然在
学习
lisp,所以虽然我感觉到有些东西没有被完全定义,但我并不真正理解如何读取这些错误消息。
浏览 8
提问于2009-02-10
得票数 7
回答已采纳
1
回答
带规划的Dyna-Q与n步Q-learning
、
我正在阅读
Sutton
和Barto的
强化
学习
,对于Dyna-Q的一个例子,他们使用了一个迷宫问题。算例表明,在n=50步规划下,算法仅需3集即可达到最优路径。 这是对50步Q
学习
的改进吗?看起来你真的只是在每集运行一堆50步的Q
学习
算法,所以说它在3集内找到最优路径是误导的。 另外,我想最大的问题是,当你没有环境模型时,我认为Dyna-Q是有用的,但在这个例子中,我们没有环境模型吗?
浏览 37
提问于2019-12-20
得票数 0
回答已采纳
2
回答
为什么随机奖励在一步动力MDP?
、
我正在阅读
Sutton
& Barto关于
强化
学习
的2018年的书,我想知道将MDP的一步动态定义为 `p(s',r|s,a) = Pr(S_{t+1},R_{t+1}|S_t=s, A_t=a) #qcStackCode
浏览 0
提问于2019-03-16
得票数 5
回答已采纳
1
回答
Q-
学习
表收敛到-inf
、
、
、
我尝试用我自己的Q
学习
实现来解决问题。 action = np.random.choice(max_indexes) 为了
学习
浏览 0
提问于2018-01-19
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
DeepMind成立首个国际AI实验室 强化学习专家Rich Sutton领导
实现AGI,强化学习就够了?Sutton:奖励机制足够实现各种目标
2024图灵奖颁给了强化学习之父Richard Sutton与Andrew Barto
强化学习之父Richard Sutton与导师Andrew Barto荣膺桂冠
强化学习之父Sutton最新万字采访:炮轰深度学习只是瞬时学习,持续学习才是智能突破的关键
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券