腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1865)
视频
沙龙
1
回答
OpenAI
健身房
cartpole-v0
理解
观察
和
动作
关系
、
我对建模系统很感兴趣,这个系统可以使用
openai
健身房
来制作一个模型,不仅表现良好,而且希望更好,而且不断改进,以收敛于最好的
动作
。这就是我初始化env的方法env = gym.make("
CartPole-v0
")它返回一组信息;
观察
,奖励,完成
和
信息,信息总是没有,所以忽略它。因为这些是随机采样的
动作
,所以是随机移动。我认为我看到的可能是第一次
观察
到,如果它达到0,游戏结束,但
浏览 11
提问于2018-08-28
得票数 0
回答已采纳
2
回答
观察
意义-
OpenAI
健身房
、
、
、
、
我想知道
OpenAI
健身房
()的
CartPole-v0
观察
规范。env = gym.make('
CartPole-v0
') observation = env.reset()
浏览 2
提问于2016-09-06
得票数 9
3
回答
仅在木星笔记本中显示
OpenAI
健身房
、
、
、
、
我想在笔记本上
和
OpenAI
健身房
一起玩,
健身房
也是在线的。matplotlib.pyplot as pltfrom IPython import display env.step(env.action_space.sample()) # take a random action 这起作用了,我在笔记本上看到了
健身房<
浏览 1
提问于2018-10-09
得票数 21
1
回答
OpenAI
健身房
环境'
CartPole-v0
‘与'CartPole-v1’的差异
、
、
我找不到
OpenAI
健身房
环境'
CartPole-v0
‘
和
'CartPole-v1’之间的差异的确切描述。这两个环境都有独立的官方网站(请参阅
和
),尽管我在gym github存储库中只能找到一个没有版本标识的代码(请参阅)。唯一的区别似乎在于他们内部分配的max_episode_steps
和
reward_threshold,可以如下所示进行访问。
CartPole-v0
的值为200/195.0,CartPole-v1的值为500/
浏览 236
提问于2019-07-05
得票数 18
回答已采纳
2
回答
OpenAI
健身房
-如何创建一个热的观测空间?
、
、
我需要知道正确的方法来创造: 谢谢
浏览 1
提问于2019-01-03
得票数 1
回答已采纳
4
回答
多智能体游戏的
Openai
健身环境
、
在多智能体游戏中可以使用的吗?具体来说,我想用四个玩家(代理)来模拟一个纸牌游戏。得分的玩家将在下一个回合开始。我如何建模玩家之间的必要协调(例如,谁是下一个)?最终,我想使用强化学习来学习四个互相对抗的代理。
浏览 5
提问于2017-06-05
得票数 29
回答已采纳
2
回答
openai
健身房
-什么是我可以使用的多离散
动作
空间的代理?
、
、
、
我有一个有多个离散
动作
空间的定制环境。行动
和
观察
空间如下:MultiDiscrete([ 3 121 121 121 3 121 121 121 3 121 121 121 3 121 121 121 3 1213 121 121 121 3 121 121 121 3 121
观察
我需要一个与我的
动作
空间相同形状的输出。 如何处理这件事?
浏览 0
提问于2019-07-03
得票数 2
回答已采纳
5
回答
如何设置
openai
-
健身房
环境,从特定的状态开始,而不是`env.reset()`?
、
、
今天,当我试图在
openai
-
健身房
环境下实现一个rl代理时,我发现了一个问题,似乎所有的代理都是从最初始的状态训练出来的:env.reset(),即initial_observation = env.reset() # <-- Note action就像这样: env = gym.make("
CartPole-v0</
浏览 0
提问于2019-09-08
得票数 7
回答已采纳
3
回答
有没有一种方法可以在
OpenAI
健身房
中禁用视频渲染,同时仍在录制它?
、
有没有一种方法可以在
OpenAI
健身房
中禁用视频渲染,同时仍在录制它? 当我使用atari环境
和
Monitor包装器时,默认行为是不渲染视频(视频仍然被录制并保存到磁盘)。然而,在MountainCarContinuous-v0、
CartPole-v0
、Pendulum-v0等简单环境中,渲染视频是默认行为,我找不到如何禁用它(我仍然想将其保存到磁盘)。
浏览 2
提问于2017-12-06
得票数 7
1
回答
Python强化学习-元组
观察
空间
、
、
、
、
我创建了一个自定义的
openai
健身房
环境,它有一个离散的
动作
空间
和
一个有点复杂的状态空间。状态空间被定义为元组,因为它结合了一些连续的维度
和
其他离散的维度: import gym def对于可以处理这种
观察
空间的RL包,有什么建议吗?目前看来,
openai
基线
和
稳定基线都不能处理它。 或者,有没有一种不同的方式可以定义我的状态空间,以便将我的环
浏览 73
提问于2019-10-09
得票数 4
回答已采纳
1
回答
OpenAI
Gym ProcGen -获得行动意义
、
、
在
OpenAI
ProcGen
健身房
,我没有办法让获得
动作
值的含义,我可以看到,对于使用env.action_space.n的coinrun环境,有15个
动作
。我试过
健身房
和
Gym3版本。这就是我如何创造环境(
健身房
版)。这两种方法似乎都不起作用。env.action_spec() env.env.get_action_mea
浏览 5
提问于2020-06-12
得票数 1
回答已采纳
2
回答
从简介页面运行演示程序
OpenAI
Gym错误
我安装了
OpenAI
健身房
,并试图运行入门购物车杆演示().(我正在Colab笔记本上跑步。)import gymenv.reset() env.render()这不学习,但它应该显示手推车
和
杆。当我运行它时,我会收到一个警告
和
一个错误。 WARN
浏览 1
提问于2018-05-15
得票数 1
回答已采纳
1
回答
openai
-gym经典控件在centos服务器上的渲染问题
、
我正在玩RL colab,它使用
健身房
的
CartPole-v0
。我通过连接到远程centOS 7.3服务器(而不是谷歌驱动器)的jupyter打开了iPython笔记本。pip install gym[classic_control]env = gym.make('
CartPole-v0
')img = env.renderlen(self.format) * self.width * self.height))() 结果要么是(4 0 0),要么是(4 155151283
浏览 40
提问于2020-10-26
得票数 0
1
回答
action_space是用来做什么的?
我在
OpenAI
健身房
做自定义环境,真的不明白,action_space是用来做什么的?我应该在里面放些什么?准确地说,我不知道什么是action_space,我没有在任何代码中使用它。
浏览 153
提问于2019-06-17
得票数 5
回答已采纳
4
回答
如何解释
OpenAI
健身房
对内存环境的
观察
?
、
在一些
OpenAI
健身房
环境中,有一个"ram“版本。例如:Breakout-v0
和
Breakout-ram-v0。 使用Breakout-ram-v0,每个
观察
都是一个长度为128的数组。问题:我如何将Breakout-v0的
观察
(即160x210图像)转换为Breakout-ram-v0 (长度为128的数组)的
观察
形式?
浏览 4
提问于2017-07-20
得票数 6
2
回答
在开放式AI
健身房
中实现策略迭代方法
、
、
、
我正在尝试使用
OpenAI
健身房
来解决一个简单的问题,比如CartPole或连续的山地车。我使用的是python。 如果不是,我如何计算这些值,并使用环境?
浏览 12
提问于2017-08-01
得票数 3
1
回答
具有稳定基线的自定义
Openai
健身房
环境
、
、
我正在尝试创建一个简单的2D网格世界,
Openai
健身房
环境,代理从网格世界中的任何地方到终端单元。例如,在5x5网格世界中,X是当前代理位置,O是代理流向的终端单元。.......X......O 离散值i,它表示代理的当前位置,是一个2d矩阵,除代理当前位置为1外,所有矩阵
浏览 3
提问于2020-12-09
得票数 0
1
回答
如何获得连续
动作
空间PPO强化学习的整数作为输出?
、
我有一个庞大的离散
动作
空间,学习稳定性不好。我想要移动到连续的操作空间,但是任务的唯一输出可以是正整数(假设在0到999之间)。如何强制DNN输出正整数?
浏览 6
提问于2022-08-03
得票数 -1
3
回答
openAi
-
健身房
NameError
、
、
、
、
我正尝试在WSL上使用来自
OpenAI
的著名的'Gym‘模块,并在python3.5.2上执行代码。当我尝试运行环境时,使用以下代码:env = gym.make('
CartPole-v0
') observation
浏览 5
提问于2017-05-24
得票数 29
2
回答
如何在
OpenAI
健身房
中撤消
动作
?
、
、
在
OpenAI
健身房
,我想知道同一状态下不同
动作
的下一个状态。如果有帮助,我这样做是为了区分LQR的动态
和
奖励,并使用InvertedPendulum环境。
浏览 8
提问于2016-08-25
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券