腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
自定义
环境
(
python
、
强化
学习
、
openai
)
中
应用
q-learning
的
问题
python
、
reinforcement-learning
、
openai
我正在尝试将Q
学习
应用
到我
的
自定义
强化
学习
环境
中
,该
环境
代表了能量存储套利(与电池进行电力交易,价格较低时充电,价格上涨时放电)。这个
环境
可以工作,但我不能将Q
学习
应用
于它。
在
环境
下面是一个能够运行
环境
的
脚本,但我不确定应该将状态变量设置为什么。对于如何
应用
Q
学习
来优化充放电
浏览 62
提问于2021-07-02
得票数 0
回答已采纳
2
回答
RLlib训练
的
一次迭代
中
的
时间步数
python
、
reinforcement-learning
、
ray
、
rllib
我是第一次接触
强化
学习
,我正在使用RLlib
在
OpenAI
健身房
中
处理
自定义
环境
的
RL。
在
创建
自定义
环境
时,是否需要在__init__()方法中指定剧集数?是否等于
自定义
环境
中
定义
的
剧集数?谢谢。
浏览 27
提问于2020-06-04
得票数 5
2
回答
在
开放式AI健身房
中
实现策略迭代方法
python
、
machine-learning
、
reinforcement-learning
、
openai-gym
我目前正在阅读Sutton & Barto
的
“
强化
学习
”,我正在尝试自己编写一些方法。但是,对于策略迭代,我需要状态之间
的
转换矩阵和奖励矩阵。这些是从你
在
OpenAI
健身房构建
的
‘
环境
’
中
获得
的
吗
浏览 12
提问于2017-08-01
得票数 3
1
回答
基于地图数据创建
OpenAI
健身房
环境
reinforcement-learning
、
openai-gym
我刚刚开始使用
强化
学习
,并尝试使用
OpenAI
gym创建
自定义
环境
。然而,谷歌地图说,我
在
试图从地图数据创建
环境
(包括道路和十字路口)时遇到了困难。 如果能得到任何帮助我会很感激
的
。
浏览 33
提问于2019-09-26
得票数 0
回答已采纳
1
回答
为什么要打开
openAI
健身房?
python-3.x
、
reinforcement-learning
、
openai-gym
我试图
在
使用
openAI
健身房作为
学习
环境
的
同时,获得一些关于
强化
学习
的
见解。我通过阅读“用
Python
进行
强化
学习
”一书来做到这一点。在这本书中,提供了一些代码。通常情况下,代码不起作用,因为我必须首先展开它,如:所示 然而,我个人仍然对这个展开
的
原因感兴趣。你为什么要拆开?这到底是干什么用
的
?为什么书里没有这样
的
编码?它是不是像Giuliov
浏览 0
提问于2018-12-18
得票数 8
回答已采纳
1
回答
未在我
的
系统上运行
的
公告物理/公报3(py子库)
中
的
kuka_grasp_block_playback.py。
robotics
、
reinforcement-learning
、
bulletphysics
、
openai-gym
、
kuka-krl
我从bullet3下载了
的
github存储库(子弹物理SDK),其中包含用于运行
强化
学习
算法
的
OpenAI
健身房示例
的
python
绑定。我尝试在下面的目录
中
运行kuka_grasp_block_playback.py示例:bullet3-master/examples/pybullet/examples/我
的
系统不支持pybullet.GUI但是,
在
使用
python</
浏览 2
提问于2017-06-05
得票数 1
1
回答
强化
学习
的
例子,比如捉迷藏,除了它们所处
的
环境
之外,还能学会解决任何
问题
吗?
reinforcement-learning
v=kopoLzvh5jY
OpenAI
利用多个表现为对抗性
的
学习
agents实现了
强化
学习
的
研究。他们说“数以百万计
的
回合”让这些玩家学会了行为。
问题
是,他们真的在
学习
吗?一旦他们使用
的
算法完成了,
环境
发生了变化,算法
学习
的
编码数据和决策是否会
应用
和复制在任何其他具有相同总体规则
的
虚拟
环境
中
浏览 0
提问于2021-10-23
得票数 1
1
回答
为什么
Q-learning
在
未知
的
环境
中
工作?
terminology
、
reinforcement-learning
、
q-learning
Q-learning
使用即时奖励矩阵R对
环境
进行建模。这意味着它使用一个已知
的
矩阵R进行
学习
,那么为什么人们说"
Q-learning
可以
在
未知
的
环境
中
工作“?
浏览 0
提问于2016-10-31
得票数 1
1
回答
Python
2.7和
Python
3模块之间
的
ROS消息
python
、
python-3.x
、
python-2.7
、
ros
、
openai-gym
我目前正在开发一个
强化
学习
模块,它需要在
Python
2.7
中
接收和发送来自ROS
的
状态、动作和奖励信息。由于系统
的
其余部分,这是一个硬约束。我想为我
的
强化
学习
代理使用
OpenAI
gym
环境
和基线,但这些都是
Python
3.5+附带
的
。作为一个新颖
的
机器人技术人员,我
的
问题
是,有没有可能从Py2.7接收ROS
浏览 58
提问于2019-04-15
得票数 0
1
回答
在
OpenAI
健身房
环境
中
,初始状态是随机
的
还是特定
的
?
reinforcement-learning
、
openai-gym
是
在
像
OpenAI
健身房这样
的
强化
学习
环境
中
随机选择
的
初始状态。换句话说,命令env.reset()产生
的
是随机选择
的
初始状态还是特定
的
初始状态?
浏览 16
提问于2019-12-29
得票数 2
回答已采纳
1
回答
如何用神经网络实现寻径和拥塞检测?
machine-learning
、
neural-network
、
artificial-intelligence
、
path-finding
、
congestion-control
盒子
在
A处进入系统,并向C移动,在那里它们退出系统。B->D也是如此。如果在C2,C1,A2和B2上有盒子,那么B2
的
盒子应该经过X,A2上
的
盒子应该等待,直到C1为空。否则它将阻塞路径B->D。我该如何用神经网络解决这个
问题
?,,所以对于每一轮,我想输入每个块的当
浏览 25
提问于2016-02-26
得票数 0
1
回答
如何营造自己
的
强化
学习
环境
?
machine-learning
、
deep-learning
、
reinforcement-learning
我们如何建立自己
的
强化
学习
环境
?我很怀疑游戏引擎是否被使用..。如果使用游戏引擎,哪个游戏引擎可以免费下载?
浏览 0
提问于2021-04-17
得票数 2
1
回答
如何在keras/
OpenAI
健身房
中
实现
自定义
环境
?
keras
、
reinforcement-learning
、
openai-gym
、
keras-rl
我是一个完整
的
新手,
强化
学习
,并一直
在
寻找一个框架/模块,以轻松地浏览这个危险
的
地形。
在
我
的
搜索
中
,我遇到了两个模块& keras-rl &
OpenAI
健身房。我可以让他们两个在他们
的
WIKIs上共享
的
例子上工作,但是他们提供了预定义
的
环境
,并且很少或根本没有关于如何设置我自己
的
自定义
环境</
浏览 2
提问于2017-06-10
得票数 12
回答已采纳
1
回答
强化
学习
中
不同方法
的
理解与评价
python
、
reinforcement-learning
、
openai-gym
、
dqn
我一直试图使用不同
的
变体(如
Q-learning
、Deep Q-Network、Double DQN和Dueling Double DQN )
在
Python
上实现
强化
学习
算法。考虑一个购物车杆示例,为了评估这些变体
的
性能,我可以考虑将sum of rewards绘制为number of episodes。 (附图)和实际
的
图形输出,在那里,杆是多么稳定,而车
在
移动。但这两种评估
在
解释更好
的
变量数量
浏览 4
提问于2021-01-08
得票数 2
回答已采纳
1
回答
为什么keras-rl示例总是
在
输出层选择线性激活?
keras
、
reinforcement-learning
、
openai-gym
我完全是
强化
学习
的
新手。我有一个关于keras-rl代理
的
输出层
的
激活函数
的
选择
的
问题
。
在
keras-rl ()提供
的
所有示例
中
,
在
输出层选择线性激活函数。为什么会这样呢?如果我使用不同
的
激活函数,我们会有什么效果?例如,如果我使用离散操作空间为5
的
OpenAI
环境
,我是否也应该考虑
在
代理<e
浏览 17
提问于2017-08-04
得票数 4
回答已采纳
9
回答
强化
学习
的
良好实现?
language-agnostic
、
artificial-intelligence
、
machine-learning
、
reinforcement-learning
对于一个人工智能项目,我需要实现一个
强化
学习
算法,这比一个简单
的
俄罗斯方块游戏。游戏是用Java编写
的
,我们有源代码。我知道
强化
学习
理论
的
基本知识,但我想知道
在
SO社区
中
是否有人对这类事情有经验。 编辑:越具体越好,但是关于这个
浏览 3
提问于2009-04-11
得票数 25
回答已采纳
2
回答
Q-learning
,如何选择实际给予最大奖励
的
行动?
reinforcement-learning
、
q-learning
因此,
在
Q
学习
中
,您可以通过Qnew(s,a) = Q(s,a) + alpha(r +γ*MaxQ(s‘,a) - Q(s,a) )来更新Q函数。现在,如果我使用相同
的
原理,但将Q更改为V函数,而不是基于当前V函数执行操作,您实际上执行所有操作(假设您可以重置模拟
环境
),并从这些操作中选择最好
的
操作,并为该状态更新V函数。这会产生更好
的
结果吗? 当然,训练时间可能会增加,因为您实际上为每次更新都做了一次所有操作,但由于保证每次都选择最佳操作(探索时除外),它最终会为您
浏览 1
提问于2018-06-08
得票数 1
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
machine-learning
、
algorithms
、
beginner
、
reinforcement-learning
、
training
我
的
课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前
在
机器
学习
中所知道
的
-统计推断可能是近似正确
的
模型,包括泛化界和模型选择。基本
的
超平面算法:感知器和Winnow。核粒 促进弱
学习</e
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
如何将Q-
学习
应用
到
OpenAI
-健身房
环境
中
,
在
每个时间步骤
中
采取多种行动?
python
、
reinforcement-learning
、
openai-gym
、
q-learning
我已经成功地使用Q-
学习
解决了一些经典
的
OpenAI
健身房
强化
学习
环境
(即出租车,CartPole)。这些
环境
允许
在
每个时间步骤
中
执行单个操作。但是,我无法找到一种解决
问题
的
方法,即在每个时间步骤同时采取多个操作。例如,
在
Roboschool
环境
中
,必须在每个时间步骤中指定两个扭矩值--每个轴一个。
问题
是,Q矩阵是由(状态,动作
浏览 0
提问于2019-04-05
得票数 4
1
回答
您如何使用
OpenAI
健身房‘包装’与
自定义
健身房
环境
中
的
射线调?
python
、
tensorflow
、
openai-gym
、
ray
如何在
OpenAI
中使用
中
的
自定义
健身房
环境
假设我构建了一个名为CustomEnv
的
Python
类(类似于用于创建
OpenAI
Gym "CartPole-v1"
环境
的
'‘类),以创建我自己
的
(
自定义
的
)
强化
学习
环境
,并且我使用来自
的
tune.run() (<e
浏览 5
提问于2022-12-01
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习之RL强化学习理论与实践视频教程附资料 6课
深度强化学习-DQN
一文简述多种强化学习算法,重要概念和术语一览
从Q学习到DDPG,一文简述多种强化学习算法
一文让你了解多种强化学习算法
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券