腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3649)
视频
沙龙
7
回答
如何实现
深度
强化
学习
(DQN)?
深度学习
、
编程算法
、
强化学习
DQN(Deep Q-Learning)可谓是
深度
强化
学习
(Deep Reinforcement Learning,DRL)的开山之作,是将
深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)
学习
的一种全新的算法 ,该如何实现
深度
强化
学习
(DQN)呢?
浏览 3838
提问于2018-10-10
2
回答
为什么要将马尔可夫性质引入
强化
学习
?
deep-learning
、
reinforcement-learning
、
markov
作为
深度
强化
学习
的初学者,我很困惑为什么我们应该在
强化
学习
中使用马尔可夫过程,以及它给
强化
学习
带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”
与
“未来”无关。为什么一些
深度
强化
学习
算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?
浏览 4
提问于2020-12-23
得票数 0
2
回答
强化
学习
算法
machine-learning
、
reinforcement-learning
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉使用监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
deep-learning
、
reinforcement-learning
、
cnn
深入的Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):
深度
强化
学习
的大规模并行
学习
方法基于
深度<
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
machine-learning
、
algorithms
、
beginner
、
reinforcement-learning
、
training
我的课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道的-统计推断可能是近似正确的模型,包括泛化界和模型选择。支持向量机(SVM)促进弱
学习
者向强
学习
者
学习
: AdaBoost回归决策树
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
2
回答
多agent
强化
学习
与
多目标
强化
学习
reinforcement-learning
、
multi-agent-reinforcement-learning
多agent
强化
学习
与
多目标
强化
学习
有
什么区别
?我认为这两种方法都能达到一些目标..。
浏览 7
提问于2022-09-21
得票数 1
回答已采纳
1
回答
强化
学习
-从原始像素
学习
h2o
、
reinforcement-learning
为了进一步了解这些知识,我想探讨一下代理如何从原始像素中
学习
,并尝试使用H2O实现一个示例。我想使用Java。 但是,我仍然需要弄清楚如何使用Java从游戏中流出图像像素,以帮助h2o RL代理
学习
。示例主要使用R和Python。
浏览 7
提问于2017-05-08
得票数 0
回答已采纳
1
回答
将RNN的隐藏状态传递给另一个RNN
rnn
、
reinforcement-learning
、
backpropagation
我正在使用
强化
学习
教一个人工智能,一个奥地利纸牌游戏,
与
不完美的信息,称为施纳普森。对于不同的游戏状态,我
有
不同的神经网络(使用不同的特征)来计算值/策略。
浏览 0
提问于2021-10-11
得票数 1
3
回答
在
深度
强化
学习
中,神经网络的设计是否
有
经验法则?
machine-learning
、
neural-network
、
reinforcement-learning
在深入
学习
中,我们可以用损失函数值来评估模型的性能,并通过K倍交叉验证等方法来提高模型的性能。但是,如何设计和优化神经网络在
深度
强化
学习
中的应用呢?我们可以用奖励等来评估
强化
学习
算法本身的性能,但是如何保证神经网络在
强化
学习
算法中的应用是好的还是坏的呢?
浏览 0
提问于2019-02-08
得票数 3
3
回答
强化
学习
工具
reinforcement-learning
Tensorforce、Kerasrl和chainerrl用于
强化
学习
的区别是什么?据我所知,这三种方法都与OpenAI健身房环境有关,并且具有相同的
强化
学习
算法。在表现上有什么不同吗?
浏览 1
提问于2018-09-10
得票数 1
1
回答
调整评估函数的权重
artificial-intelligence
、
minimax
我
有
有限的时间和硬件,所以我的问题是:在评估的质量方面,基于使用较低
深度
搜索获得的结果执行“训练”和调整权重是否非常糟糕,而不是当AI在有更多时间并因此可以在更深层次上搜索游戏树的情况下必须表现最佳时使用的结果
浏览 0
提问于2011-03-21
得票数 0
1
回答
并行Q-
学习
neural-network
、
parallel
、
reinforcement-learning
、
q-learning
、
pybrain
我正在寻找学术论文或其他可信的来源,侧重于平行
强化
学习
的主题,特别是Q-
学习
。我最感兴趣的是在进程之间共享Q表的方法(如果每个进程都有自己的进程,则将它们连接/同步在一起)。
浏览 0
提问于2016-01-14
得票数 4
1
回答
如何用不同的模型对基于DQN的
深度
神经网络进行
强化
学习
?
neural-network
、
reinforcement-learning
、
unsupervised-learning
、
deep-learning
如果不使用深层神经网络(DNN)来实现
强化
学习
算法,比如
深度
Q-网络(DQN),可以实现吗?在下面的DQN伪码中,如果我想用另一种无监督算法替换DNN部分,它可能吗?
浏览 0
提问于2018-08-31
得票数 3
1
回答
随机森林算法曾用于
强化
学习
应用吗?
random-forest
、
reinforcement-learning
我见过一个描述“
强化
学习
树”的研究论文,作者说它比随机森林
有
更好的收敛性。 然而,我找不到任何
与
利用随机森林作为
强化
学习
的表格有关的东西。是否曾进行过使用随机森林
强化
学习
的测试?
浏览 0
提问于2017-08-14
得票数 4
回答已采纳
1
回答
深度
强化
学习
neural-network
、
reinforcement-learning
我正在使用一种
深度
强化
学习
方法来导航一个agent从一个初始点到一个目标点。现场还有其他因素和障碍。我没有找到如何创建dataset,如何使用我前面提到的3个元素。 有人能帮帮我吗!提前谢谢!
浏览 2
提问于2020-03-19
得票数 0
2
回答
如何在python中调用Javascript函数?
javascript
、
python-3.x
、
electron
我正在尝试用电子学和
深度
强化
学习
来做一个蛇的游戏。我用python和Javascript做的
强化
学习
的东西。现在我如何在python中调用这样的函数呢?
浏览 3
提问于2020-03-20
得票数 0
2
回答
信息提取结合
强化
学习
,可行吗?
text-mining
、
reinforcement-learning
、
parsing
、
named-entity-recognition
我想知道是否可以使用
强化
学习
(因为它将越来越流行的谷歌DeepMind &AlphaGo的东西)来解析和提取文本信息。NER),即“城市”标记纽约的任务和“组织”词性标记(POS)的“纽约时报”,即将单词归类为行列式、名词等信息提取,即在文本中查找和标记某些目标信息,例如12/03号日期被赋予上下文含义为12月3日,是否
有
标签也许它会学到“单词”中的相邻字母都有相同的标签,等等,它能用这种方法来
学习
长期的依赖关系吗? 我对任何
与
这一主题有关的想法或参考感兴趣。
浏览 0
提问于2016-03-12
得票数 4
回答已采纳
1
回答
如何在没有培训数据的情况下生成评等?
machine-learning
、
dataset
、
cross-validation
、
reinforcement-learning
我正致力于自动生成餐厅评级,我
有
各种特征值,如送货时间、成本估算等。我想为每一家餐厅生成0到5之间的评级。但我没有任何培训数据或基本事实可供验证。此评等可能因用户而异。我想使用
强化
学习
来
学习
与
用户反馈的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
浏览 0
提问于2015-06-12
得票数 0
3
回答
为什么RL被称为“
强化
”
学习
?
machine-learning
、
deep-learning
、
reinforcement-learning
我理解为什么机器
学习
是这样命名的,除此之外,还有监督
学习
和无监督
学习
背后的术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
什么是后悔界限?
machine-learning
、
reinforcement-learning
我唯一能找到的解释是在论文博士中:“后悔界限是在线
学习
算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能,称为竞争假设。”
浏览 0
提问于2019-10-23
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券