在自定义环境(python、强化学习、openai)中应用q-learning的问题_如何修复在自定义Python3应用程序中实现qgis时，在“”中找不到Qt平台插件"Windows“的问题？ - 腾讯云开发者社区

python、reinforcement-learning、openai

我正在尝试将Q学习应用到我的自定义强化学习环境中，该环境代表了能量存储套利(与电池进行电力交易，价格较低时充电，价格上涨时放电)。这个环境可以工作，但我不能将Q学习应用于它。在环境下面是一个能够运行环境的脚本，但我不确定应该将状态变量设置为什么。对于如何应用Q学习来优化充放电

浏览 62提问于2021-07-02得票数 0

回答已采纳

2回答

RLlib训练的一次迭代中的时间步数

python、reinforcement-learning、ray、rllib

我是第一次接触强化学习，我正在使用RLlib在OpenAI健身房中处理自定义环境的RL。在创建自定义环境时，是否需要在__init__()方法中指定剧集数？是否等于自定义环境中定义的剧集数？谢谢。

浏览 27提问于2020-06-04得票数 5

2回答

在开放式AI健身房中实现策略迭代方法

python、machine-learning、reinforcement-learning、openai-gym

我目前正在阅读Sutton & Barto的“强化学习”，我正在尝试自己编写一些方法。但是，对于策略迭代，我需要状态之间的转换矩阵和奖励矩阵。这些是从你在OpenAI健身房构建的‘环境’中获得的吗

浏览 12提问于2017-08-01得票数 3

1回答

基于地图数据创建OpenAI健身房环境

reinforcement-learning、openai-gym

我刚刚开始使用强化学习，并尝试使用OpenAI gym创建自定义环境。然而，谷歌地图说，我在试图从地图数据创建环境(包括道路和十字路口)时遇到了困难。如果能得到任何帮助我会很感激的。

浏览 33提问于2019-09-26得票数 0

回答已采纳

1回答

为什么要打开openAI健身房？

python-3.x、reinforcement-learning、openai-gym

我试图在使用openAI健身房作为学习环境的同时，获得一些关于强化学习的见解。我通过阅读“用Python进行强化学习”一书来做到这一点。在这本书中，提供了一些代码。通常情况下，代码不起作用，因为我必须首先展开它，如：所示然而，我个人仍然对这个展开的原因感兴趣。你为什么要拆开？这到底是干什么用的？为什么书里没有这样的编码？它是不是像Giuliov

浏览 0提问于2018-12-18得票数 8

回答已采纳

1回答

未在我的系统上运行的公告物理/公报3(py子库)中的kuka_grasp_block_playback.py。

robotics、reinforcement-learning、bulletphysics、openai-gym、kuka-krl

我从bullet3下载了的github存储库(子弹物理SDK)，其中包含用于运行强化学习算法的OpenAI健身房示例的python绑定。我尝试在下面的目录中运行kuka_grasp_block_playback.py示例：bullet3-master/examples/pybullet/examples/我的系统不支持pybullet.GUI但是，在使用python</

浏览 2提问于2017-06-05得票数 1

1回答

强化学习的例子，比如捉迷藏，除了它们所处的环境之外，还能学会解决任何问题吗？

reinforcement-learning

v=kopoLzvh5jY OpenAI利用多个表现为对抗性的学习agents实现了强化学习的研究。他们说“数以百万计的回合”让这些玩家学会了行为。问题是，他们真的在学习吗？一旦他们使用的算法完成了，环境发生了变化，算法学习的编码数据和决策是否会应用和复制在任何其他具有相同总体规则的虚拟环境中

浏览 0提问于2021-10-23得票数 1

1回答

为什么Q-learning在未知的环境中工作？

terminology、reinforcement-learning、q-learning

Q-learning使用即时奖励矩阵R对环境进行建模。这意味着它使用一个已知的矩阵R进行学习，那么为什么人们说"Q-learning可以在未知的环境中工作“？

浏览 0提问于2016-10-31得票数 1

1回答

Python2.7和Python3模块之间的ROS消息

python、python-3.x、python-2.7、ros、openai-gym

我目前正在开发一个强化学习模块，它需要在Python2.7中接收和发送来自ROS的状态、动作和奖励信息。由于系统的其余部分，这是一个硬约束。我想为我的强化学习代理使用OpenAI gym环境和基线，但这些都是Python 3.5+附带的。作为一个新颖的机器人技术人员，我的问题是，有没有可能从Py2.7接收ROS

浏览 58提问于2019-04-15得票数 0

1回答

在OpenAI健身房环境中，初始状态是随机的还是特定的？

reinforcement-learning、openai-gym

是在像OpenAI健身房这样的强化学习环境中随机选择的初始状态。换句话说，命令env.reset()产生的是随机选择的初始状态还是特定的初始状态？

浏览 16提问于2019-12-29得票数 2

回答已采纳

1回答

如何用神经网络实现寻径和拥塞检测？

machine-learning、neural-network、artificial-intelligence、path-finding、congestion-control

盒子在A处进入系统，并向C移动，在那里它们退出系统。B->D也是如此。如果在C2，C1，A2和B2上有盒子，那么B2的盒子应该经过X，A2上的盒子应该等待，直到C1为空。否则它将阻塞路径B->D。我该如何用神经网络解决这个问题？，，所以对于每一轮，我想输入每个块的当

浏览 25提问于2016-02-26得票数 0

1回答

如何营造自己的强化学习环境？

machine-learning、deep-learning、reinforcement-learning

我们如何建立自己的强化学习环境？我很怀疑游戏引擎是否被使用..。如果使用游戏引擎，哪个游戏引擎可以免费下载？

浏览 0提问于2021-04-17得票数 2

1回答

如何在keras/ OpenAI健身房中实现自定义环境？

keras、reinforcement-learning、openai-gym、keras-rl

我是一个完整的新手，强化学习，并一直在寻找一个框架/模块，以轻松地浏览这个危险的地形。在我的搜索中，我遇到了两个模块& keras-rl & OpenAI健身房。我可以让他们两个在他们的WIKIs上共享的例子上工作，但是他们提供了预定义的环境，并且很少或根本没有关于如何设置我自己的自定义环境</

浏览 2提问于2017-06-10得票数 12

回答已采纳

1回答

强化学习中不同方法的理解与评价

python、reinforcement-learning、openai-gym、dqn

我一直试图使用不同的变体(如Q-learning、Deep Q-Network、Double DQN和Dueling Double DQN )在Python上实现强化学习算法。考虑一个购物车杆示例，为了评估这些变体的性能，我可以考虑将sum of rewards绘制为number of episodes。 (附图)和实际的图形输出，在那里，杆是多么稳定，而车在移动。但这两种评估在解释更好的变量数量

浏览 4提问于2021-01-08得票数 2

回答已采纳

1回答

为什么keras-rl示例总是在输出层选择线性激活？

keras、reinforcement-learning、openai-gym

我完全是强化学习的新手。我有一个关于keras-rl代理的输出层的激活函数的选择的问题。在keras-rl ()提供的所有示例中，在输出层选择线性激活函数。为什么会这样呢？如果我使用不同的激活函数，我们会有什么效果？例如，如果我使用离散操作空间为5的OpenAI环境，我是否也应该考虑在代理<e

浏览 17提问于2017-08-04得票数 4

回答已采纳

9回答

强化学习的良好实现？

language-agnostic、artificial-intelligence、machine-learning、reinforcement-learning

对于一个人工智能项目，我需要实现一个强化学习算法，这比一个简单的俄罗斯方块游戏。游戏是用Java编写的，我们有源代码。我知道强化学习理论的基本知识，但我想知道在SO社区中是否有人对这类事情有经验。编辑:越具体越好，但是关于这个

浏览 3提问于2009-04-11得票数 25

回答已采纳

2回答

Q-learning，如何选择实际给予最大奖励的行动？

reinforcement-learning、q-learning

因此，在Q学习中，您可以通过Qnew(s，a) = Q(s，a) + alpha(r +γ*MaxQ(s‘，a) - Q(s，a) )来更新Q函数。现在，如果我使用相同的原理，但将Q更改为V函数，而不是基于当前V函数执行操作，您实际上执行所有操作(假设您可以重置模拟环境)，并从这些操作中选择最好的操作，并为该状态更新V函数。这会产生更好的结果吗？当然，训练时间可能会增加，因为您实际上为每次更新都做了一次所有操作，但由于保证每次都选择最佳操作(探索时除外)，它最终会为您

浏览 1提问于2018-06-08得票数 1

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

machine-learning、algorithms、beginner、reinforcement-learning、training

我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？这是我目前在机器学习中所知道的-统计推断可能是近似正确的模型，包括泛化界和模型选择。基本的超平面算法:感知器和Winnow。核粒促进弱学习</e

浏览 0提问于2017-01-04得票数 9

回答已采纳

1回答

如何将Q-学习应用到OpenAI-健身房环境中，在每个时间步骤中采取多种行动？

python、reinforcement-learning、openai-gym、q-learning

我已经成功地使用Q-学习解决了一些经典的OpenAI健身房强化学习环境(即出租车，CartPole)。这些环境允许在每个时间步骤中执行单个操作。但是，我无法找到一种解决问题的方法，即在每个时间步骤同时采取多个操作。例如，在Roboschool环境中，必须在每个时间步骤中指定两个扭矩值--每个轴一个。问题是，Q矩阵是由(状态，动作

浏览 0提问于2019-04-05得票数 4

1回答

您如何使用OpenAI健身房‘包装’与自定义健身房环境中的射线调？

python、tensorflow、openai-gym、ray

如何在OpenAI中使用中的自定义健身房环境假设我构建了一个名为CustomEnv的Python类(类似于用于创建OpenAI Gym "CartPole-v1"环境的'‘类)，以创建我自己的(自定义的)强化学习环境，并且我使用来自的tune.run() (<e

浏览 5提问于2022-12-01得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云