腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
具有
不可
重复
动作
的
强化
学习
我是RL
的
新手,对RL
的
功能感到好奇。在我
的
理解中,RL是一种神经网络,它输入一个状态并输出每个
动作
的
概率。训练过程是为了减少预测值和实际奖励值之间
的
差异(这里可能是错误
的
)。然而,我
的
问题非常棘手。在开始时,有一个
动作
空间x1,x2,x3,x4,..,x5,在每一步之后,
动作
不能
重复
。换句话说,
动作
空间在每次迭代后都在缩小。当
动作
空间为0时,“游戏”结束。该操作
浏览 38
提问于2020-05-12
得票数 0
回答已采纳
1
回答
连续
动作
空间(人形-v2)增强
的
实现?
、
、
、
、
我已经看到了用于
具有
离散
动作
空间
的
强化
学习
任务
的
强化
策略算法
的
多个实现。是否有针对连续
动作
空间
的
算法(或其他策略梯度算法)
的
实现?更具体地说,有没有可能从OpenAI健身房实现两足动物运动
的
增强-“人形-v2”? 谢谢。
浏览 1
提问于2018-04-13
得票数 2
1
回答
当可能发生多个操作时,策略梯度是多少?
、
我试图编程一个
强化
学习
算法使用策略梯度,灵感来自。卡帕
的
例子只有上下两个
动作
,所以一个输出神经元就足够了(高activation=UP,低activation=DOWN)。我想把它扩展到多个
动作
,所以我相信我需要输出层上
的
softmax激活函数。但是,我不确定输出层
的
梯度应该是多少。如果我在监督
学习
环境中使用
具有
softmax激活
的
交叉熵损失函数,神经元
的
梯度就是: g[i] = a[i] - ta
浏览 6
提问于2017-05-10
得票数 3
回答已采纳
1
回答
具有
动作
对
的
强化
学习
我正在
学习
python中
的
强化
学习
,并进行了一些训练,其中大多数都是处理简单
的
动作
(比如向上、向下、向右或向左),所以基本上一次只有一个
动作
。在我
的
项目中,我有不同方式
的
动作
:它有一对
动作
,意味着在这个action...like中除了一个偏移量之外还采取了一个
动作
(
动作
类型,偏移量-已采取)。并且在每个
动作
上,存在与该实施
的
<e
浏览 2
提问于2018-03-28
得票数 1
3
回答
具有
可变
动作
的
强化
学习
、
、
我读到
的
所有算法通常都应用于
具有
固定数量
的
操作
的
单个代理。有没有什么
强化
学习
算法可以在考虑可变数量
的
动作
的
情况下做出决策?例如,如何在计算机游戏中应用RL算法,其中玩家控制N个士兵,每个士兵根据其条件有随机数量
的
动作
?你不能为全局决策者(即“将军”)制定固定数量
的
行动,因为随着士兵
的
创建和死亡,可用
的
行动不断变化。你不能在士兵层面上制定一个固定数
浏览 1
提问于2011-03-07
得票数 14
回答已采纳
7
回答
如何实现深度
强化
学习
(DQN)?
、
、
DQN(Deep Q-Learning)可谓是深度
强化
学习
(Deep Reinforcement Learning,DRL)
的
开山之作,是将深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到
动作
( Action )
的
端对端(End-to-end)
学习
的
一种全新
的
算法 ,该如何实现深度
强化
学习
(DQN)呢?
浏览 3423
提问于2018-10-10
1
回答
监督
学习
与离线(批)
强化
学习
、
大多数材料(例如大卫·西尔弗
的
在线课程)我都能找到关于监督
学习
和
强化
学习
之间关系
的
讨论。然而,它实际上是监督
学习
和在线
强化
学习
的
比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学
的
有限知识
的
反馈。我对离线(批量)
强化
学习
更感兴趣,在这里,数据集(收集
的
学习
经验)是先验
的
。与监督
浏览 4
提问于2021-08-14
得票数 0
回答已采纳
2
回答
Q-Learning和TD(λ)中
的
奖励
这两种RL技术中
的
奖励是如何工作
的
?我
的
意思是,他们都改善了政策和评估,但没有奖励。我怎么才能从一开始就猜到呢?
浏览 0
提问于2012-01-10
得票数 1
1
回答
当某个
动作
不可
执行时,如何减少神经网络输出
、
、
、
我正在使用神经网络和tensorflow在Q
学习
方法
的
各种东西上进行
强化
学习
,我想知道当特定输出对应
的
特定操作在特定状态下无法在环境中实现时,降低输出可能性
的
解决方案是什么。例如,我
的
网络正在
学习
玩一个执行了4个
动作
的
游戏。但有一种特定
的
状态下,
动作
1在环境中是
不可
执行
的
,但我
的
神经网络Q值表明,
动作
1是最好<
浏览 16
提问于2019-05-16
得票数 3
回答已采纳
1
回答
OpenAI健身房中
的
有效
动作
为什么健身房
的
环境没有“有效
的
行动”呢?正常
的
健身房环境可以接受任何
动作
,即使这是
不可
能
的
。 这是
强化
学习
的
正常做法吗?这些模型真的需要
学习
什么是有效
的
行动一直吗?如果有一个env.get_valid_actions()函数,使模型知道哪些操作是可行
的
,那就更好了吗?或者这是可能
的
,但我错过了?
浏览 0
提问于2019-10-11
得票数 3
回答已采纳
2
回答
确定性策略梯度相对于随机策略梯度
的
优势是什么?
深度确定性策略梯度()是
动作
空间连续时
强化
学习
的
最新方法。它
的
核心算法是。 然而,在阅读了论文和听了the talk ()之后,我仍然无法弄清楚确定性PG相对于随机PG
的
根本优势是什么。谈话说它更适合高维
动作
,更容易训练,但为什么会这样呢?
浏览 64
提问于2017-03-13
得票数 12
1
回答
动作
播放频率
的
直方图
我已经使用Roth-Erev
强化
学习
算法创建了一个模型,以便每轮代理从一组操作A中选择他们
的
操作a。这些
动作
计算它们在整个游戏中被玩
的
频率。仅仅使用histogram count [n-played] of actions并不能单独绘制每个
动作
。是否有任何内置
的
浏览 1
提问于2016-09-09
得票数 1
2
回答
主动
学习
和
强化
学习
有什么区别?
、
、
、
维基百科:如何区分他们?确切
的
区别是什么?
浏览 0
提问于2020-11-13
得票数 14
回答已采纳
3
回答
每个状态都是终端
的
强化
学习
、
我
的
问题不是关于
强化
学习
的
实施,而是理解当每个状态都是一个终结状态时,RL
的
概念。如果我们考虑情节性
的
RL,我觉得这个方法没有意义。事实上,机器人射击并得到回报:每一集都是最后一集。将下一个状态传递给系统是没有意义
的
,
浏览 0
提问于2019-02-25
得票数 1
回答已采纳
4
回答
监督
学习
,(ii)无监督
学习
,(iii)
强化
学习
、
我是机器
学习
的
新手。在阅读关于监督
学习
,无监督
学习
,
强化
学习
的
时候,我遇到了一个问题,如下所示,并感到困惑。请帮助我在以下三项中识别出哪一种是监督
学习
,无监督
学习
,
强化
学习
。哪种类型
的
学习
(如果有的话)最适合描述以下三种情况: (i)为自动售货机设立硬币分类系统。为此,开发人员从美国造币厂获得准确
的
硬币规格,并推导出大小、重量和面额
的</
浏览 3
提问于2013-04-03
得票数 5
1
回答
用选择
的
移动反馈来训练分类器,而不是真正
的
标签。
、
我很难用一句话来描述我想要
的
东西,这可能就是我在Google上运气不佳
的
原因。然而,我所拥有的培训数据只是状态,已经采取
的
行动,以及是否有好
的
或坏
的
结果。如果选择
的
移动是不好
浏览 0
提问于2015-07-26
得票数 3
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我
的
课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道
的
-统计推断可能是近似正确
的
模型,包括泛化界和模型选择。基本
的
超平面算法:感知器和Winnow。核粒 促进弱
学习
者向强
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
如何应用
强化
学习
?
、
然后,智能体要么选择“探索”,要么选择“利用”,并根据发生
的
事情修改其知识。我正在试着为俄罗斯方块写一个RL代理,但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我,我会很感激
的
。谢谢:)
浏览 1
提问于2013-11-13
得票数 2
1
回答
深度
强化
学习
的
大
动作
空间
、
我知道在正常
的
深度
强化
学习
(DRL)场景中,我们
学习
了一个深层神经网络来将当前状态映射到Q值。Q值
的
数目(神经网络输出
的
#)与可能
的
动作
数相同,因此我们可以根据相关
的
Q值选择
动作
。然而,在本文"基于组合
动作
空间
的
深度
强化
学习
预测流行Reddit线程“中,作者使用状态和
动作
作为输入。网络只输出一个Q值(见下图)。s_t是
浏览 0
提问于2019-04-16
得票数 6
1
回答
基于openai曲线
的
tensorflow模型
的
训练
、
、
、
我正在使用tensorflow实现我
的
第一个
强化
深度
学习
模型,我正在为其实现。import numpy as np import tensorflow a
浏览 2
提问于2017-07-02
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
防伪标签的原理及制作方法,具有不可重复使用的优点
谷歌AI提出双重策略强化学习框架,帮助机器人安全学习动作技能
机器学习之——强化学习中的模仿学习
强化学习的入门之旅
机器学习之——强化学习中的免模型学习
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券