如何将Drake与深度强化学习结合使用_强化学习与强化学习深度强化学习：有什么区别？_使用cnn Q-近似构建深度强化学习 - 腾讯云开发者社区

machine-learning、deep-learning、simulation、robotics、drake

drake有没有实现深度强化学习算法的管道/平台？

浏览 20提问于2021-01-28得票数 0

7回答

如何实现深度强化学习（DQN）?

深度学习、编程算法、强化学习

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3314提问于2018-10-10

2回答

为什么要将马尔可夫性质引入强化学习？

deep-learning、reinforcement-learning、markov

作为深度强化学习的初学者，我很困惑为什么我们应该在强化学习中使用马尔可夫过程，以及它给强化学习带来了什么好处。另外，马尔可夫过程要求在“已知”条件下，“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM？这是否违反了马尔可夫过程的假设？

浏览 4提问于2020-12-23得票数 0

1回答

如何用不同的模型对基于DQN的深度神经网络进行强化学习？

neural-network、reinforcement-learning、unsupervised-learning、deep-learning

如果不使用深层神经网络(DNN)来实现强化学习算法，比如深度Q-网络(DQN)，可以实现吗？在下面的DQN伪码中，如果我想用另一种无监督算法替换DNN部分，它可能吗？

浏览 0提问于2018-08-31得票数 3

2回答

我使用drake进行一些无模型强化学习，我注意到Drake在模拟更新时使用了一个非固定的步骤集成。当一个物体的加速度很大时，为了在较短的时间内进行多次集成，这是有意义的，但在使用强化学习的情况下，这会导致一些显着的计算开销和缓慢的展开。我想知道是否有一种原则性的方法允许模拟环境在固定的时间步长集成模式下操作，而不是我目前使用的方法(下面的代码)。我目前正在使用PyDrake绑定和PPO作为RL算法。

浏览 0提问于2021-10-20得票数 2

回答已采纳

1回答

您能否将强化学习添加到卷积神经网络中以改进图像分类？

image-processing、conv-neural-network、reinforcement-learning

我对机器和深度学习非常陌生。我的疑问是，如何将强化学习添加到使用传统神经网络开发的图像分类器中，以随着时间的推移提高其性能？

浏览 23提问于2020-05-10得票数 0

1回答

蒙特卡洛是学习策略还是价值迭代(或其他东西)？

reinforcement-learning、q-learning、temporal-difference、monte-carlo-tree-search、value-iteration

我正在上强化学习课程，我不知道如何将策略迭代/值迭代的概念与蒙特卡洛(以及TD/SARSA/Q学习)相结合。

浏览 5提问于2018-05-08得票数 2

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

machine-learning、algorithms、beginner、reinforcement-learning、training

我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？这是我目前在机器学习中所知道的-统计推断可能是近似正确的模型，包括泛化界和模型选择。支持向量机(SVM)促进弱学习者向强学习者学习: AdaBoost回归决策树

浏览 0提问于2017-01-04得票数 9

回答已采纳

2回答

强化学习算法

machine-learning、reinforcement-learning

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

1回答

机器学习如何与大数据相结合？

machine-learning、deep-learning、data-science

机器学习如何与大数据集成?机器学习与MapReduce?What的区别是什么？(有监督学习、无监督学习、强化学习)是决策的主要内容之一，大数据在医疗保健和智能城市决策中的区别是什么？<code>H 111</code>以及大数据与深度学习作为机器学习技术之一的关系？<code>H 212</code><cod

浏览 3提问于2019-11-14得票数 1

回答已采纳

3回答

强化学习工具

reinforcement-learning

Tensorforce、Kerasrl和chainerrl用于强化学习的区别是什么？据我所知，这三种方法都与OpenAI健身房环境有关，并且具有相同的强化学习算法。在表现上有什么不同吗？

浏览 1提问于2018-09-10得票数 1

1回答

调整评估函数的权重

artificial-intelligence、minimax

我有有限的时间和硬件，所以我的问题是:在评估的质量方面，基于使用较低深度搜索获得的结果执行“训练”和调整权重是否非常糟糕，而不是当AI在有更多时间并因此可以在更深层次上搜索游戏树的情况下必须表现最佳时使用的结果

浏览 0提问于2011-03-21得票数 0

1回答

深度强化学习的大动作空间

deep-learning、reinforcement-learning

我知道在正常的深度强化学习(DRL)场景中，我们学习了一个深层神经网络来将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的动作数相同，因此我们可以根据相关的Q值选择动作。然而，在本文"基于组合动作空间的深度强化学习预测流行Reddit线程“中，作者使用状态和动作作为输入。网络只输出一个Q值(见下图)。

浏览 0提问于2019-04-16得票数 6

1回答

将DNN模型发送到Watson进行训练时打开数据文件时出错

ibm-watson、watson-studio

我的火车设置为pickle文件(.p)，在我的模型代码中，我打开该文件并开始使用它，然后在它上进行训练。然而，当我开始培训时，我收到了这个错误消息，我似乎找不到问题所在。

浏览 15提问于2019-06-25得票数 0

2回答

Pytorch -在eval()和train()模式之间来回往返

python、neural-network、deep-learning、pytorch、reinforcement-learning

我正在学习“深度强化学习”，并在pytorch的强化学习(DQN)教程之后构建我自己的示例。据我所知，在使用BatchNorm1d时，必须执行model.eval()才能使用模型，因为eval()和train()模式有不同的结果。在训练分类神经网络时，model.eval()只在训练结束后进行，但在“深度强化学习”的情况下，通常采用策略，然后继续优化过程。我想知道不同模式之间的来回是否对优化过程是

浏览 3提问于2019-10-18得票数 3

回答已采纳

1回答