使用值列表对观察空间进行编码(openai gym)

、

我有一个元组的元组作为我的观察空间，每个项目对应于该空间的一个动作。想象一下一个带有按钮的长面板，它可以有多个离散值，我可以切换其中的任何一个。如果面板有10个项目，那么我的操作空间是 self.action_space = spaces.Discrete(10) 我想要做的是简化我的observation_space，这样我就可以提供我的离散值列表PS:我的观察空间目前是10个值(分类)的列表，

浏览 28提问于2021-08-14得票数 2

2回答

异常发生: AttributeError 'int‘对象在调用dqn.fit()时没有属性’when‘

、、、、

我试图为空间入侵者环境创建一个dqn代理，当我试图运行程序时，这个属性错误会在dqn.fit()行中弹出。import gym import numpy as npfromrl.memory import SequentialMemory env = gym.make

浏览 18提问于2022-10-19得票数 1

2回答

OpenAI健身房:演练动作空间中所有可能的动作

、、

我想要构建一种暴力方法，在选择最好的动作之前，测试健身房动作空间中的所有动作。有没有什么简单、直接的方法来获取所有可能的操作？具体来说，我的动作空间是 import gym action_space = gym.spaces.MultiDiscrete([5 for _ in range(4)]) 我知道我可以使用action_space.sample()对随机操作进行采样，还可以检查操作空间中是否包含某个操作，但我希望生成该空间中

浏览 48提问于2020-10-29得票数 2

回答已采纳

2回答

CartPole-v0的意外观察空间

、、

我对通过对CartPole-v0进行自省而获得的观察空间感到惊讶。根据the official doc的说法，以下是我应该得到的： ? 3.4028235e+38 -4.1887903e-01 -3.4028235e+38]gy

浏览 14提问于2019-04-10得票数 0

2回答

如何为我的自定义openai环境定义observation_space？

、

我目前正在开发一个自定义Gym环境，它表示一个网络图形(包含节点和链接)，并且我很难确定我的环境中的observation_space变量应该是什么样子。我不打算使用我的环境的图形表示(这意味着render()方法只使用终端)。此外，我计划使用Q-学习算法来开发这个图:我应该离散observation_space吗？我计划使用像这样的RL算法。

浏览 0提问于2019-06-04得票数 1

2回答

尝试反转字符串列表会给出单个字符

代码如下： test = "\n".join(["gym", "meetup", "Christian associations"]) print(sorted(test, reverse=True)) 有没有人可以解释一下为什么我得到了下面的结果，而不是上面的列表。

浏览 31提问于2020-08-18得票数 0

回答已采纳

1回答

您如何使用OpenAI健身房‘包装’与自定义健身房环境中的射线调？

、、、

如何在OpenAI中使用中的自定义健身房环境import ray from ray import tune，但事实证明，学习是缓慢的，所以我想尝试<e

浏览 5提问于2022-12-01得票数 0

回答已采纳

1回答

设置openai健身房

、、、

我的任务是搭建一个openai玩具健身房，只有有记忆力的智能体才能解决这个问题。我被给出了一个有两个门的例子，在时间t=0时，我被显示为1或-1。在t=1时，我可以移动到正确的门并打开它。我想展示a2c或ppo可以使用lstm策略来解决这个问题。如何设置环境等？

浏览 2提问于2018-08-31得票数 2

1回答

OpenAI健身房cartpole-v0理解观察和动作关系

、

我对建模系统很感兴趣，这个系统可以使用openai健身房来制作一个模型，不仅表现良好，而且希望更好，而且不断改进，以收敛于最好的动作。这就是我初始化env的方法env = gym.make("CartPole-v0")它返回一组信息；观察，奖励，完成和信息，信息总是没有，所以忽略它。可以通过以下方式对操作进行采样

浏览 11提问于2018-08-28得票数 0

回答已采纳

3回答

标称大数据异常检测

、、、、

我必须对大数据应用异常检测算法，我的数据中每列的值都是标称的，变化超过10000倍，我发现的算法只接受数字值，有没有办法将这个标称值转换成数字值，使算法能够工作呢？我使用过preprocessing.LabeledEncoder()，但是当我应用该算法时，它会发现异常值--与它看起来的平均值相差最大的值。是否有任何算法的例子或另一种方法来转换数据？

浏览 0提问于2018-12-06得票数 1

1回答

如何将Q-学习应用到OpenAI-健身房环境中，在每个时间步骤中采取多种行动？

、、、

我已经成功地使用Q-学习解决了一些经典的OpenAI健身房强化学习环境(即出租车，CartPole)。这些环境允许在每个时间步骤中执行单个操作。例如，在Roboschool环境中，必须在每个时间步骤中指定两个扭矩值--每个轴一个。问题是，Q矩阵是由(状态，动作)对构建的。但是，如果同时执行多个操作，则建立Q矩阵并不简单。为了支持这种情况，Gym定义了一个特殊的容器类，它允许将多个操作空间嵌套为一个统一的操作。有没有人知道如何处理Q学习中的多个动作？PS:我不是在说“连续的还是离散

浏览 0提问于2019-04-05得票数 4

2回答

聚合多个编码的分类值

、、、

我目前正在使用一个具有特征类别的数据集，其基数为20,000。一次热编码没有意义，它会增加太多的特征空间。我的数据集中的每个观察都可以为类别特性接受多个值，例如，第1行的值可以是a，但是第2行的值可以是a、b、c、d。我已经成功地对特性中的每个单独值进行了编码，但不确定如何为每一行聚合这些值。如何组合这些编码值？

浏览 0提问于2020-03-26得票数 1

1回答

竞赛策略发展的观察空间-强化学习

、、

TLDR;经过训练的RL代理可以自行决定何时进行停站，以及应该添加多少燃料，以便缩短比赛时间，并对模拟中的概率事件作出反应。动作空间是离散的(4)，代表的选择，继续，坑和加油分别2,4,6圈。问题观测空间是POMDP性质的，需要模拟agent当前的种族位置(我希望这

浏览 5提问于2021-08-24得票数 0

1回答

RL适用于完全随机的环境吗？

、

我们正在尝试使用RL进行库存管理--在这种情况下，需求是完全随机的(在现实生活中，它可能有一个模式，但现在让我们假设我们被迫被视为纯粹的随机)。但是所有的游戏都有规则，“推车杆”( OpenAI Gym)也有规则RL真的适用于这种情况吗？如果是这样的话-那什么能提高性能呢？进一步的细节：-从“环境”中唯一可以得到的两种刺激是目前可用的产品“X”和当前的需求“Y”--并且“action”是二进制的--我是否订购了一个数量'Q‘来填充，或

浏览 0提问于2018-10-11得票数 2

回答已采纳

2回答

强化学习是否适用于随机环境？

、

我们正在尝试使用RL进行库存管理--在这种情况下，需求完全是随机(它可能在现实生活中有一种模式，但现在让我们假设我们被迫被视为纯粹的随机)。但是所有的游戏都有规则，还有“购物车杆”( OpenAI Gym) --有一些“物理”规则控制着推车杆什么时候会翻倒。对于我们的问题，没有规则-环境变化随机(对产品的需求)。进一步的细节：-从“环境”中唯一可以得到的两种刺激是目前可用的产品“X”和当前的需求“Y”--并且“action”是二进制的--我是否订购了一个数量'Q‘来填充，或者没有(离散的动作<

浏览 2提问于2018-10-10得票数 2

3回答

对管道分隔的列表进行分组和汇总

、

浏览 3提问于2013-08-06得票数 1

回答已采纳

2回答

在UTF-8编码标准中，第一位(即二进制0)是什么意思？

、、、、

考虑下面的示例：单词“”的每个字母的等效代码点如下：e = 101o = 111104 101 108 108 11101101000 01100101 01101100 01101100 01101111 如果你仔细观

浏览 152提问于2018-06-07得票数 1

回答已采纳

1回答

Q-learning模型没有改进

、、、

我正在尝试解决openAI健身房的cartpole问题。通过Q学习。我想我误解了Q-learning的工作原理，因为我的模型没有改进。我使用字典作为我的Q表。因此，我对每个观察结果进行“散列”(变成字符串)。并将其用作我的表中的关键字。我的表中的每个键(观察值)都映射到另一个字典。其中我存储了在此状态下进行的每个移动及其相关的Q值。0.133'', ''-1.574'']

浏览 14提问于2019-02-15得票数 1

1回答

检索由列表中的最后N个值组成的组中的最低/最高值

、、

我正在使用R，但其他语言的解决方案也有效。在每一行中，我希望检索由列表本身中的最后N个观测组成的组中的最低/最高值。为了做到这一点，我理解双步解决方案可能有效：然而，虽然第二点非常简单，但在第一点中，需要创建N重叠观测组(即一个组中的最后一个观察，成为下一个组中的最后一个观察，等

浏览 2提问于2020-04-29得票数 1

回答已采纳

1回答

PostgreSQL/TimescaleDB:如何只保存相对于最后一个类似行的增量行？

、、、

我不想浪费空间来存储许多行不变的东西。我见过，但它依赖于一个窗口函数，其中整个表已经包含所有不变的行。

浏览 0提问于2021-01-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

异常发生: AttributeError 'int‘对象在调用dqn.fit()时没有属性’when‘

OpenAI健身房:演练动作空间中所有可能的动作

CartPole-v0的意外观察空间

如何为我的自定义openai环境定义observation_space？

尝试反转字符串列表会给出单个字符

您如何使用OpenAI健身房‘包装’与自定义健身房环境中的射线调？

设置openai健身房

OpenAI健身房cartpole-v0理解观察和动作关系

标称大数据异常检测

如何将Q-学习应用到OpenAI-健身房环境中，在每个时间步骤中采取多种行动？

聚合多个编码的分类值

竞赛策略发展的观察空间-强化学习

RL适用于完全随机的环境吗？

强化学习是否适用于随机环境？

对管道分隔的列表进行分组和汇总

在UTF-8编码标准中，第一位(即二进制0)是什么意思？

Q-learning模型没有改进

检索由列表中的最后N个值组成的组中的最低/最高值

PostgreSQL/TimescaleDB:如何只保存相对于最后一个类似行的增量行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐