强化学习与强化学习深度强化学习：有什么区别？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

7回答

如何实现深度强化学习（DQN）?

深度学习、编程算法、强化学习

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3838提问于2018-10-10

2回答

为什么要将马尔可夫性质引入强化学习？

deep-learning、reinforcement-learning、markov

作为深度强化学习的初学者，我很困惑为什么我们应该在强化学习中使用马尔可夫过程，以及它给强化学习带来了什么好处。另外，马尔可夫过程要求在“已知”条件下，“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM？这是否违反了马尔可夫过程的假设？

浏览 4提问于2020-12-23得票数 0

2回答

强化学习算法

machine-learning、reinforcement-learning

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

1回答

为什么深层强化学习不能学会如何玩小行星？

deep-learning、reinforcement-learning、cnn

深入的Q-学习，A3C，政策进化的遗传算法，他们都没有学习小行星，或至少表现比人类差得多。根据RL的说法，从最艰难的Atari游戏来看，大部分的焦点都集中在蒙特祖马的复仇上，这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用)：深度强化学习的大规模并行学习方法基于深度<

浏览 0提问于2018-02-16得票数 3

回答已采纳

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

machine-learning、algorithms、beginner、reinforcement-learning、training

我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？这是我目前在机器学习中所知道的-统计推断可能是近似正确的模型，包括泛化界和模型选择。支持向量机(SVM)促进弱学习者向强学习者学习: AdaBoost回归决策树

浏览 0提问于2017-01-04得票数 9

回答已采纳

2回答

多agent强化学习与多目标强化学习

reinforcement-learning、multi-agent-reinforcement-learning

多agent强化学习与多目标强化学习有什么区别？我认为这两种方法都能达到一些目标..。

浏览 7提问于2022-09-21得票数 1

回答已采纳

1回答

强化学习-从原始像素学习

h2o、reinforcement-learning

为了进一步了解这些知识，我想探讨一下代理如何从原始像素中学习，并尝试使用H2O实现一个示例。我想使用Java。但是，我仍然需要弄清楚如何使用Java从游戏中流出图像像素，以帮助h2o RL代理学习。示例主要使用R和Python。

浏览 7提问于2017-05-08得票数 0

回答已采纳

1回答

将RNN的隐藏状态传递给另一个RNN

rnn、reinforcement-learning、backpropagation

我正在使用强化学习教一个人工智能，一个奥地利纸牌游戏，与不完美的信息，称为施纳普森。对于不同的游戏状态，我有不同的神经网络(使用不同的特征)来计算值/策略。

浏览 0提问于2021-10-11得票数 1

3回答

在深度强化学习中，神经网络的设计是否有经验法则？

machine-learning、neural-network、reinforcement-learning

在深入学习中，我们可以用损失函数值来评估模型的性能，并通过K倍交叉验证等方法来提高模型的性能。但是，如何设计和优化神经网络在深度强化学习中的应用呢？我们可以用奖励等来评估强化学习算法本身的性能，但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢？

浏览 0提问于2019-02-08得票数 3

3回答

强化学习工具

reinforcement-learning

Tensorforce、Kerasrl和chainerrl用于强化学习的区别是什么？据我所知，这三种方法都与OpenAI健身房环境有关，并且具有相同的强化学习算法。在表现上有什么不同吗？

浏览 1提问于2018-09-10得票数 1

1回答

调整评估函数的权重

artificial-intelligence、minimax

我有有限的时间和硬件，所以我的问题是:在评估的质量方面，基于使用较低深度搜索获得的结果执行“训练”和调整权重是否非常糟糕，而不是当AI在有更多时间并因此可以在更深层次上搜索游戏树的情况下必须表现最佳时使用的结果

浏览 0提问于2011-03-21得票数 0

1回答

并行Q-学习

neural-network、parallel、reinforcement-learning、q-learning、pybrain

我正在寻找学术论文或其他可信的来源，侧重于平行强化学习的主题，特别是Q-学习。我最感兴趣的是在进程之间共享Q表的方法(如果每个进程都有自己的进程，则将它们连接/同步在一起)。

浏览 0提问于2016-01-14得票数 4

1回答

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

neural-network、reinforcement-learning、unsupervised-learning、deep-learning

如果不使用深层神经网络(DNN)来实现强化学习算法，比如深度Q-网络(DQN)，可以实现吗？在下面的DQN伪码中，如果我想用另一种无监督算法替换DNN部分，它可能吗？

浏览 0提问于2018-08-31得票数 3

1回答

随机森林算法曾用于强化学习应用吗？

random-forest、reinforcement-learning

我见过一个描述“强化学习树”的研究论文，作者说它比随机森林有更好的收敛性。然而，我找不到任何与利用随机森林作为强化学习的表格有关的东西。是否曾进行过使用随机森林强化学习的测试？

浏览 0提问于2017-08-14得票数 4

回答已采纳

1回答

深度强化学习

neural-network、reinforcement-learning

我正在使用一种深度强化学习方法来导航一个agent从一个初始点到一个目标点。现场还有其他因素和障碍。我没有找到如何创建dataset，如何使用我前面提到的3个元素。有人能帮帮我吗！提前谢谢！

浏览 2提问于2020-03-19得票数 0

2回答

如何在python中调用Javascript函数？

javascript、python-3.x、electron

我正在尝试用电子学和深度强化学习来做一个蛇的游戏。我用python和Javascript做的强化学习的东西。现在我如何在python中调用这样的函数呢？

浏览 3提问于2020-03-20得票数 0

2回答

信息提取结合强化学习，可行吗？

text-mining、reinforcement-learning、parsing、named-entity-recognition

我想知道是否可以使用强化学习(因为它将越来越流行的谷歌DeepMind &AlphaGo的东西)来解析和提取文本信息。NER)，即“城市”标记纽约的任务和“组织”词性标记(POS)的“纽约时报”，即将单词归类为行列式、名词等信息提取，即在文本中查找和标记某些目标信息，例如12/03号日期被赋予上下文含义为12月3日，是否有标签也许它会学到“单词”中的相邻字母都有相同的标签，等等，它能用这种方法来学习长期的依赖关系吗？我对任何与这一主题有关的想法或参考感兴趣。

浏览 0提问于2016-03-12得票数 4

回答已采纳

1回答

如何在没有培训数据的情况下生成评等？

machine-learning、dataset、cross-validation、reinforcement-learning

我正致力于自动生成餐厅评级，我有各种特征值，如送货时间、成本估算等。我想为每一家餐厅生成0到5之间的评级。但我没有任何培训数据或基本事实可供验证。此评等可能因用户而异。我想使用强化学习来学习与用户反馈的评级，但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗？

浏览 0提问于2015-06-12得票数 0

3回答

为什么RL被称为“强化”学习？

machine-learning、deep-learning、reinforcement-learning

我理解为什么机器学习是这样命名的，除此之外，还有监督学习和无监督学习背后的术语。那么，关于强化学习，reinforced是什么？

浏览 63提问于2018-05-28得票数 4

回答已采纳

1回答

什么是后悔界限？

machine-learning、reinforcement-learning

我唯一能找到的解释是在论文博士中：“后悔界限是在线学习算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能，称为竞争假设。”

浏览 0提问于2019-10-23得票数 2

点击加载更多

如何实现深度强化学习（DQN）?

为什么要将马尔可夫性质引入强化学习？

强化学习算法

为什么深层强化学习不能学会如何玩小行星？

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

多agent强化学习与多目标强化学习

强化学习-从原始像素学习

将RNN的隐藏状态传递给另一个RNN

在深度强化学习中，神经网络的设计是否有经验法则？

强化学习工具

调整评估函数的权重

并行Q-学习

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

随机森林算法曾用于强化学习应用吗？

深度强化学习

如何在python中调用Javascript函数？

信息提取结合强化学习，可行吗？

如何在没有培训数据的情况下生成评等？

为什么RL被称为“强化”学习？

什么是后悔界限？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐