腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
值
列表
对
观察
空间
进行
编码
(
openai
gym
)
、
我有一个元组的元组作为我的
观察
空间
,每个项目对应于该
空间
的一个动作。 想象一下一个带有按钮的长面板,它可以有多个离散
值
,我可以切换其中的任何一个。如果面板有10个项目,那么我的操作
空间
是 self.action_space = spaces.Discrete(10) 我想要做的是简化我的observation_space,这样我就可以提供我的离散
值
列表
PS:我的
观察
空间
目前是10个
值
(分类)的
列表
,
浏览 28
提问于2021-08-14
得票数 2
2
回答
异常发生: AttributeError 'int‘对象在调用dqn.fit()时没有属性’when‘
、
、
、
、
我试图为
空间
入侵者环境创建一个dqn代理,当我试图运行程序时,这个属性错误会在dqn.fit()行中弹出。import
gym
import numpy as npfromrl.memory import SequentialMemory env =
gym
.make
浏览 18
提问于2022-10-19
得票数 1
2
回答
OpenAI
健身房:演练动作
空间
中所有可能的动作
、
、
我想要构建一种暴力方法,在选择最好的动作之前,测试健身房动作
空间
中的所有动作。有没有什么简单、直接的方法来获取所有可能的操作?具体来说,我的动作
空间
是 import
gym
action_space =
gym
.spaces.MultiDiscrete([5 for _ in range(4)]) 我知道我可以
使用
action_space.sample()
对
随机操作
进行
采样,还可以检查操作
空间
中是否包含某个操作,但我希望生成该
空间
中
浏览 48
提问于2020-10-29
得票数 2
回答已采纳
2
回答
CartPole-v0的意外
观察
空间
、
、
我
对
通过
对
CartPole-v0
进行
自省而获得的
观察
空间
感到惊讶。 根据the official doc的说法,以下是我应该得到的: ? 3.4028235e+38 -4.1887903e-01 -3.4028235e+38]
gy
浏览 14
提问于2019-04-10
得票数 0
2
回答
如何为我的自定义
openai
环境定义observation_space?
、
我目前正在开发一个自定义
Gym
环境,它表示一个网络图形(包含节点和链接),并且我很难确定我的环境中的observation_space变量应该是什么样子。我不打算
使用
我的环境的图形表示(这意味着render()方法只
使用
终端)。 此外,我计划
使用
Q-学习算法来开发这个图:我应该离散observation_space吗?我计划
使用
像这样的RL算法。
浏览 0
提问于2019-06-04
得票数 1
2
回答
尝试反转字符串
列表
会给出单个字符
代码如下: test = "\n".join(["
gym
", "meetup", "Christian associations"]) print(sorted(test, reverse=True)) 有没有人可以解释一下为什么我得到了下面的结果,而不是上面的
列表
。
浏览 31
提问于2020-08-18
得票数 0
回答已采纳
1
回答
您如何
使用
OpenAI
健身房‘包装’与自定义健身房环境中的射线调?
、
、
、
如何在
OpenAI
中
使用
中的自定义健身房环境import ray from ray import tune,但事实证明,学习是缓慢的,所以我想尝试<e
浏览 5
提问于2022-12-01
得票数 0
回答已采纳
1
回答
设置
openai
健身房
、
、
、
我的任务是搭建一个
openai
玩具健身房,只有有记忆力的智能体才能解决这个问题。我被给出了一个有两个门的例子,在时间t=0时,我被显示为1或-1。在t=1时,我可以移动到正确的门并打开它。我想展示a2c或ppo可以
使用
lstm策略来解决这个问题。如何设置环境等?
浏览 2
提问于2018-08-31
得票数 2
1
回答
OpenAI
健身房cartpole-v0理解
观察
和动作关系
、
我
对
建模系统很感兴趣,这个系统可以
使用
openai
健身房来制作一个模型,不仅表现良好,而且希望更好,而且不断改进,以收敛于最好的动作。这就是我初始化env的方法env =
gym
.make("CartPole-v0")它返回一组信息;
观察
,奖励,完成和信息,信息总是没有,所以忽略它。可以通过以下方式
对
操作
进行
采样
浏览 11
提问于2018-08-28
得票数 0
回答已采纳
3
回答
标称大数据异常检测
、
、
、
、
我必须
对
大数据应用异常检测算法,我的数据中每列的
值
都是标称的,变化超过10000倍,我发现的算法只接受数字
值
,有没有办法将这个标称
值
转换成数字
值
,使算法能够工作呢?我
使用
过preprocessing.LabeledEncoder(),但是当我应用该算法时,它会发现异常值--与它看起来的平均值相差最大的
值
。 是否有任何算法的例子或另一种方法来转换数据?
浏览 0
提问于2018-12-06
得票数 1
1
回答
如何将Q-学习应用到
OpenAI
-健身房环境中,在每个时间步骤中采取多种行动?
、
、
、
我已经成功地
使用
Q-学习解决了一些经典的
OpenAI
健身房强化学习环境(即出租车,CartPole)。这些环境允许在每个时间步骤中执行单个操作。例如,在Roboschool环境中,必须在每个时间步骤中指定两个扭矩
值
--每个轴一个。问题是,Q矩阵是由(状态,动作)
对
构建的。但是,如果同时执行多个操作,则建立Q矩阵并不简单。为了支持这种情况,
Gym
定义了一个特殊的容器类,它允许将多个操作
空间
嵌套为一个统一的操作。 有没有人知道如何处理Q学习中的多个动作?PS:我不是在说“连续的还是离散
浏览 0
提问于2019-04-05
得票数 4
2
回答
聚合多个
编码
的分类
值
、
、
、
我目前正在
使用
一个具有特征类别的数据集,其基数为20,000。一次热
编码
没有意义,它会增加太多的特征
空间
。我的数据集中的每个
观察
都可以为类别特性接受多个
值
,例如,第1行的
值
可以是a,但是第2行的
值
可以是a、b、c、d。 我已经成功地
对
特性中的每个单独
值
进行
了
编码
,但不确定如何为每一行聚合这些
值
。如何组合这些
编码
值
?
浏览 0
提问于2020-03-26
得票数 1
1
回答
竞赛策略发展的
观察
空间
-强化学习
、
、
TLDR;经过训练的RL代理可以自行决定何时
进行
停站,以及应该添加多少燃料,以便缩短比赛时间,并
对
模拟中的概率事件作出反应。动作
空间
是离散的(4),代表的选择,继续,坑和加油分别2,4,6圈。问题 观测
空间
是POMDP性质的,需要模拟agent当前的种族位置(我希望这
浏览 5
提问于2021-08-24
得票数 0
1
回答
RL适用于完全随机的环境吗?
、
我们正在尝试
使用
RL
进行
库存管理--在这种情况下,需求是完全随机的(在现实生活中,它可能有一个模式,但现在让我们假设我们被迫被视为纯粹的随机)。但是所有的游戏都有规则,“推车杆”(
OpenAI
Gym
)也有规则RL真的适用于这种情况吗? 如果是这样的话-那什么能提高性能呢?进一步的细节:-从“环境”中唯一可以得到的两种刺激是目前可用的产品“X”和当前的需求“Y”--并且“action”是二进制的--我是否订购了一个数量'Q‘来填充,或
浏览 0
提问于2018-10-11
得票数 2
回答已采纳
2
回答
强化学习是否适用于随机环境?
、
我们正在尝试
使用
RL
进行
库存管理--在这种情况下,需求完全是随机(它可能在现实生活中有一种模式,但现在让我们假设我们被迫被视为纯粹的随机)。但是所有的游戏都有规则,还有“购物车杆”(
OpenAI
Gym
) --有一些“物理”规则控制着推车杆什么时候会翻倒。 对于我们的问题,没有规则-环境变化随机(
对
产品的需求)。进一步的细节:-从“环境”中唯一可以得到的两种刺激是目前可用的产品“X”和当前的需求“Y”--并且“action”是二进制的--我是否订购了一个数量'Q‘来填充,或者没有(离散的动作<
浏览 2
提问于2018-10-10
得票数 2
3
回答
对
管道分隔的
列表
进行
分组和汇总
、
[['Biking', '10'], ['Biking|
Gym
', '14'], ['Biking|
Gym
|Hiking', '9'], ['Biking|
Gym
|Hiking|Running', '27']][['Biking',60,'34.7%'],['
Gym</e
浏览 3
提问于2013-08-06
得票数 1
回答已采纳
2
回答
在UTF-8
编码
标准中,第一位(即二进制0)是什么意思?
、
、
、
、
考虑下面的示例:单词“”的每个字母的等效代码点如下:e = 101o = 111104 101 108 108 11101101000 01100101 01101100 01101100 01101111 如果你仔细
观
浏览 152
提问于2018-06-07
得票数 1
回答已采纳
1
回答
Q-learning模型没有改进
、
、
、
我正在尝试解决
openAI
健身房的cartpole问题。通过Q学习。我想我误解了Q-learning的工作原理,因为我的模型没有改进。 我
使用
字典作为我的Q表。因此,我
对
每个
观察
结果
进行
“散列”(变成字符串)。并将其用作我的表中的关键字。 我的表中的每个键(
观察
值
)都映射到另一个字典。其中我存储了在此状态下
进行
的每个移动及其相关的Q
值
。0.133'', ''-1.574'']
浏览 14
提问于2019-02-15
得票数 1
1
回答
检索由
列表
中的最后N个
值
组成的组中的最低/最高
值
、
、
我正在
使用
R,但其他语言的解决方案也有效。在每一行中,我希望检索由
列表
本身中的最后N个观测组成的组中的最低/最高
值
。为了做到这一点,我理解双步解决方案可能有效:然而,虽然第二点非常简单,但在第一点中,需要创建N重叠观测组(即一个组中的最后一个
观察
,成为下一个组中的最后一个
观察
,等
浏览 2
提问于2020-04-29
得票数 1
回答已采纳
1
回答
PostgreSQL/TimescaleDB:如何只保存相对于最后一个类似行的增量行?
、
、
、
我不想浪费
空间
来存储许多行不变的东西。 我见过,但它依赖于一个窗口函数,其中整个表已经包含所有不变的行。
浏览 0
提问于2021-01-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
走进强化学习
OpenAI发布8个模拟机器人环境以及一种HER实现,以训练实体机器人模型
论嵌入在 OpenAI的5v5 DOTA2 AI 中的妙用
从Zero到Hero,OpenAI重磅发布深度强化学习资源
使用Gym和CNN构建多智能体自动驾驶马里奥赛车
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券