我是RL的新手,我做过的最好的事情是在openAI健身房做过CartPole。在cartPole中,API会根据所采取的操作自动提供奖励。如果我只有像素数据,没有“魔法函数”可以告诉我某个动作的奖励,我该如何决定奖励呢?
比方说,我想在GTA San Andreas做一个自动驾驶机器人。我可以访问的输入是原始像素。我该如何计算它所采取的某个行动的奖励呢?
我发现,在mac安装openai健身房时,人们经常会遇到这样的问题:无法构建轮子atari,pachi-py。其中提出的解决方案是在构建之前使用导出命令导出MACOSX_DEPLOYMENT_TARGET=10.11导出SDKROOT=/path/ to /Mac10.11SDK。我尝试了给出的建议,但我发现同样的错误,当我试图安装完整的openai健身房。有人能帮我解决这个问题吗?
我刚来OpenAI健身房。我已经成功地在我的Mac (High Sierra 10.13.3)笔记本电脑上安装了OpenAI健身房,并为CartPole游戏创建了一个OpenAI。我正在尝试安装Atari依赖来使用MsPacman。我试过了:
$ pip install gym[atari]
并确保Atari已成功安装(我在gym目录中看到atari_py与gym和atari在同一目录中)。但是当我运行代码时,我得到了:
raise error.DependencyNotInstalled("{}. (HINT: you can install Atari dependencies b
我想在笔记本上和OpenAI健身房一起玩,健身房也是在线的。
下面是一个基本的例子:
import matplotlib.pyplot as plt
import gym
from IPython import display
%matplotlib inline
env = gym.make('CartPole-v0')
env.reset()
for i in range(25):
plt.imshow(env.render(mode='rgb_array'))
display.display(plt.gcf())
displa
信息:,我正在使用OpenAI健身房创建RL环境,但我正在做的事情需要一个环境的多个副本。我不想做任何类似[gym.make(...) for i in range(2)]的事情来创造一个新的环境。
问题:给了一个健身房env,什么是最好的方法来复制它,这样你就有两个重复但断开连接的env?
下面是一个示例:
import gym
env = gym.make("CartPole-v0")
new_env = # NEED COPY OF ENV HERE
env.reset() # Should not alter new_env
我是第一次接触强化学习,我正在使用RLlib在OpenAI健身房中处理自定义环境的RL。在创建自定义环境时,是否需要在__init__()方法中指定剧集数?ALso,当我用
for _ in range(10):
trainer.train()
一次迭代需要多少时间步长?是否等于自定义环境中定义的剧集数?谢谢。