腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
深度
强化
学习
中
的
有效
奖励
范围
在DQN、Actor-Critic或A3C中选择
奖励
值时,是否有选择
奖励
值
的
通用规则?你能告诉我什么建议和原因吗?
浏览 35
提问于2018-08-13
得票数 1
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入
的
Q-
学习
,A3C,政策进化
的
遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL
的
说法,从最艰难
的
Atari游戏来看,大部分
的
焦点都集中在蒙特祖马
的
复仇上,这显然受到了很少
的
奖励
。然而,我不认为这是小行星(视频)
的
情况,因为每一颗小行星
的
射击都会得到
奖励
。为什么DRL表现那么差?以下是一些报告小行星上
的
坏结果
的
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
1
回答
学习
率将wrt衰减为累积
奖励
?
、
在
深度
强化
学习
中
,有没有办法将
学习
率wrt衰减为累积
奖励
?我
的
意思是,当智能体能够
学习
并最大化
奖励
时,衰减
学习
率?
浏览 18
提问于2020-06-18
得票数 0
1
回答
在RL中使用工程即时
奖励
会给代理带来非线性问题吗?
假设我们使用称为“S”
的
状态行为对和一个
奖励
函数R()操作,如下所示:R(S2) <- 0现在,考虑一下由一个人引入
的
即时
奖励
,以使代理人表现得更好:R(S2) <- -1 R(S3) <- -10是否存在这样
的
情况:为了使折扣
奖励
的
总和最大化,代理可以选择避免具有强负报酬
的
状态,即使代价
浏览 0
提问于2018-02-07
得票数 1
回答已采纳
3
回答
在
深度
强化
学习
中
,神经网络
的
设计是否有经验法则?
、
、
在深入
学习
中
,我们可以用损失函数值来评估模型
的
性能,并通过K倍交叉验证等方法来提高模型
的
性能。但是,如何设计和优化神经网络在
深度
强化
学习
中
的
应用呢?我们可以用
奖励
等来评估
强化
学习
算法本身
的
性能,但是如何保证神经网络在
强化
学习
算法
中
的
应用是好
的
还是坏
的
呢?
浏览 0
提问于2019-02-08
得票数 3
1
回答
机器怎么知道哪一步能得到最大
的
奖励
?
、
在我看来,
强化
学习
会从行动
中
得到回报。然而,在玩电子游戏时,大多数步骤(如:街头拳击手)都没有
奖励
(
奖励
== 0 ),最终,我们得到了
奖励
(例如:玩家赢了,
奖励
=1),有这么多动作,机器怎么知道哪一个是赢得这个游戏
的
关键?
浏览 0
提问于2019-05-07
得票数 2
回答已采纳
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我
的
课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道
的
-统计推断可能是近似正确
的
模型,包括泛化界和模型选择。基本
的
超平面算法:感知器和Winnow。核粒 促进弱
学习
者向强
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
2
回答
如何在折扣报酬和平均报酬之间作出选择?
、
、
什么时候平均报酬比折扣
奖励
更
有效
,反之亦然?在这张图中,文件“用
深度
强化
学习
弹Atari”
的
图2:提交人报告了“平均
奖励
”。然而,在同一篇论文中
浏览 0
提问于2019-02-18
得票数 6
1
回答
是否有可能在A2C稳定基线3
中
公开回放缓冲区以包括人工判断?
、
、
我正在使用来自稳定基础3 ()包
的
A2C (AdvantageActor批评者)框架来解决
奖励
为+1或0
的
强化
问题。我有一种自动机制,在给定
的
状态下分配
奖励
给一个选择。然而,这种自动机制并不足以
奖励
我
的
选择。我已经评估过,人
的
判断(如果一个人坐着并
奖励
选择)是更好
的
。假设一集中有N个
浏览 3
提问于2022-04-13
得票数 0
1
回答
连续状态和动作空间
的
强化
学习
、
、
问题当前状态是表示物体在环境
中
的
位置(三维)和物体
的
速度(三维)
的
矢量。在环境
中
随机初始化起始位置,以及启动速度。 动作是表示从状态t到状态t+1
的
运动
的
向量。如果您对这种方法感兴趣,
浏览 0
提问于2019-01-05
得票数 5
回答已采纳
1
回答
连续状态和动作空间
的
强化
学习
、
、
、
问题当前状态是表示物体在环境
中
的
位置(三维)和物体
的
速度(三维)
的
矢量。在环境
中
随机初始化起始位置,以及启动速度。 动作是表示从状态t到状态t+1
的
运动
的
向量。如果您对这种方法感兴趣,
浏览 1
提问于2019-01-05
得票数 2
回答已采纳
1
回答
为什么随机样本从重播到DQN?
、
、
、
我试着获得对深层
强化
学习
的
直观理解。在
深度
Q-网络(DQN)
中
,我们将所有的行为/环境/
奖励
存储在一个记忆阵列
中
,在事件结束时,通过我们
的
神经网络“重播”它们。我认为导致
奖励
状态
的
行为序列是捕获
的
重要因素--这种行为序列(而不是独立
的
行为)是导致我们进入
奖励
状态
的
原因。 在和许多教程
中
,我们看到了从内存数组和
浏览 2
提问于2017-11-19
得票数 0
回答已采纳
1
回答
强化
学习
的
边界
、
、
、
、
我终于开发了一个游戏机器人,
学习
如何玩游戏蛇与
深度
Q-
学习
。我尝试了不同
的
神经网络和超参数,我找到了一个工作装置,为一组特定
的
奖励
。问题是:当我
奖励
代理人朝着正确
的
方向前进时--如果代理人
的
坐标与食物
的
坐标相应增加或减少,则
奖励
积极
的
奖励
--代理人学得很快,获得很高
的
分数。当我不为此
奖励
代理人,而只
奖励
死亡和积
浏览 0
提问于2018-09-20
得票数 1
回答已采纳
1
回答
基于折扣
奖励
的
深度
强化
学习
算法
、
、
我正在用基线实现一个增强算法,但我对折扣
奖励
函数有疑问。我实现了这样
的
折扣
奖励
功能: r = np.zeros_like(rewards)r = [1.234, 2.34, 3.4, 4.0] 然而,在这里我
的
问题是
浏览 6
提问于2020-12-10
得票数 2
2
回答
Q
学习
对21点,
奖励
功能?
我目前正在
学习
强化
学习
,我已经建立了一个黑板游戏。我可以硬编码一个正面的
奖励
(赢得手
的
奖励
的
一部分),对不会导致失败
的
命中,但它感觉我没有正确地处理这个问题。另外,当我为一
浏览 0
提问于2020-01-31
得票数 4
1
回答
Python
中
带有Tensorflow
的
Cart极
的
深度
Q-
学习
、
、
、
我正在尝试实现经典
的
深度
Q
学习
算法来解决openAI健身房
的
Cart极游戏:令人惊讶
的
是,该代理成功地在许多集中达到了200步(这是最大
的
),只需在每集中生成4个随机
的
均匀权重w1、w2、w3、w4 (-1.0到1.0)。因此,我决定实现一个简单
的
DQN,只有4个权重和2个偏见,并让代理
学习
这个游戏
的
时间。权值将在开始时随机初始化,并在
浏览 4
提问于2020-08-09
得票数 0
回答已采纳
0
回答
能否用gym搭建陆空两栖飞行汽车
的
仿真环境?
、
、
、
、
一直想用
深度
强化
学习
DQN解决三维城市道路
的
决策与控制问题,比如自动驾驶汽车在行驶
的
时候,考虑距离和成本来约束(
奖励
函数),引导汽车选择合理
的
模式(动作空间有2个:地面行驶和起飞),第一个难题就是三维仿真环境如何搭建第二个是
奖励
函数怎么写?网上很少有教程关于
奖励
函数
的
设计
的
?摸索快一年了,一直没有结果,挑战性真的把兴趣都快抹杀了,这个课题还能,有希望继续搞吗?请大佬指点
浏览 103
提问于2023-04-18
7
回答
如何实现
深度
强化
学习
(DQN)?
、
、
DQN(Deep Q-Learning)可谓是
深度
强化
学习
(Deep Reinforcement Learning,DRL)
的
开山之作,是将
深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )
的
端对端(End-to-end)
学习
的
一种全新
的
算法 ,该如何实现
深度
强化
学习
(DQN)呢?
浏览 3423
提问于2018-10-10
1
回答
在深入
强化
学习
的
背景下,批量大小
的
含义是什么?
、
批次大小是指在监督
学习
中
接受神经工作训练
的
样本数,但是,在
强化
学习
的
背景下,批次大小
的
意义是什么?它也是指样品吗?如果是的话,在
强化
学习
的
背景下,样本
的
意义是什么?
浏览 0
提问于2019-04-02
得票数 3
回答已采纳
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的
方法来研究和开发一些应用。我已经熟悉使用监督
学习
的
分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
无人驾驶中的深度强化学习
深度强化学习在滴滴路径规划中的探索
基于C#的机器学习-惩罚与奖励-强化学习
深度强化学习的弱点和局限
深度学习第11期:基于Policy的强化学习
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券