具有不可重复动作的强化学习

我是RL的新手，对RL的功能感到好奇。在我的理解中，RL是一种神经网络，它输入一个状态并输出每个动作的概率。训练过程是为了减少预测值和实际奖励值之间的差异(这里可能是错误的)。然而，我的问题非常棘手。在开始时，有一个动作空间x1，x2，x3，x4，..，x5，在每一步之后，动作不能重复。换句话说，动作空间在每次迭代后都在缩小。当动作空间为0时，“游戏”结束。该操作

浏览 38提问于2020-05-12得票数 0

回答已采纳

1回答

连续动作空间(人形-v2)增强的实现？

、、、、

我已经看到了用于具有离散动作空间的强化学习任务的强化策略算法的多个实现。是否有针对连续动作空间的算法(或其他策略梯度算法)的实现？更具体地说，有没有可能从OpenAI健身房实现两足动物运动的增强-“人形-v2”？谢谢。

浏览 1提问于2018-04-13得票数 2

1回答

我试图编程一个强化学习算法使用策略梯度，灵感来自。卡帕的例子只有上下两个动作，所以一个输出神经元就足够了(高activation=UP，低activation=DOWN)。我想把它扩展到多个动作，所以我相信我需要输出层上的softmax激活函数。但是，我不确定输出层的梯度应该是多少。如果我在监督学习环境中使用具有softmax激活的交叉熵损失函数，神经元的梯度就是： g[i] = a[i] - ta

浏览 6提问于2017-05-10得票数 3

回答已采纳

1回答

具有动作对的强化学习

我正在学习python中的强化学习，并进行了一些训练，其中大多数都是处理简单的动作(比如向上、向下、向右或向左)，所以基本上一次只有一个动作。在我的项目中，我有不同方式的动作:它有一对动作，意味着在这个action...like中除了一个偏移量之外还采取了一个动作(动作类型，偏移量-已采取)。并且在每个动作上，存在与该实施的<e

浏览 2提问于2018-03-28得票数 1

3回答

具有可变动作的强化学习

、、

我读到的所有算法通常都应用于具有固定数量的操作的单个代理。有没有什么强化学习算法可以在考虑可变数量的动作的情况下做出决策？例如，如何在计算机游戏中应用RL算法，其中玩家控制N个士兵，每个士兵根据其条件有随机数量的动作？你不能为全局决策者(即“将军”)制定固定数量的行动，因为随着士兵的创建和死亡，可用的行动不断变化。你不能在士兵层面上制定一个固定数

浏览 1提问于2011-03-07得票数 14

回答已采纳

7回答

如何实现深度强化学习（DQN）?

、、

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法，该如何实现深度强化学习（DQN）呢?

浏览 3423提问于2018-10-10

1回答

监督学习与离线(批)强化学习

、

大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而，它实际上是监督学习和在线强化学习的比较，在这种情况下，agent在环境中运行(或模拟交互)，以获得对底层动力学的有限知识的反馈。我对离线(批量)强化学习更感兴趣，在这里，数据集(收集的学习经验)是先验的。与监督

浏览 4提问于2021-08-14得票数 0

回答已采纳

2回答

Q-Learning和TD(λ)中的奖励

这两种RL技术中的奖励是如何工作的？我的意思是，他们都改善了政策和评估，但没有奖励。我怎么才能从一开始就猜到呢？

浏览 0提问于2012-01-10得票数 1

1回答

当某个动作不可执行时，如何减少神经网络输出

、、、

我正在使用神经网络和tensorflow在Q学习方法的各种东西上进行强化学习，我想知道当特定输出对应的特定操作在特定状态下无法在环境中实现时，降低输出可能性的解决方案是什么。例如，我的网络正在学习玩一个执行了4个动作的游戏。但有一种特定的状态下，动作1在环境中是不可执行的，但我的神经网络Q值表明，动作1是最好<

浏览 16提问于2019-05-16得票数 3

回答已采纳

1回答

OpenAI健身房中的有效动作

为什么健身房的环境没有“有效的行动”呢？正常的健身房环境可以接受任何动作，即使这是不可能的。这是强化学习的正常做法吗？这些模型真的需要学习什么是有效的行动一直吗？如果有一个env.get_valid_actions()函数，使模型知道哪些操作是可行的，那就更好了吗？或者这是可能的，但我错过了？

浏览 0提问于2019-10-11得票数 3

回答已采纳

2回答

确定性策略梯度相对于随机策略梯度的优势是什么？

深度确定性策略梯度()是动作空间连续时强化学习的最新方法。它的核心算法是。然而，在阅读了论文和听了the talk ()之后，我仍然无法弄清楚确定性PG相对于随机PG的根本优势是什么。谈话说它更适合高维动作，更容易训练，但为什么会这样呢？

浏览 64提问于2017-03-13得票数 12

1回答

动作播放频率的直方图

我已经使用Roth-Erev强化学习算法创建了一个模型，以便每轮代理从一组操作A中选择他们的操作a。这些动作计算它们在整个游戏中被玩的频率。仅仅使用histogram count [n-played] of actions并不能单独绘制每个动作。是否有任何内置的

浏览 1提问于2016-09-09得票数 1

2回答

主动学习和强化学习有什么区别？

、、、

维基百科：如何区分他们？确切的区别是什么？

浏览 0提问于2020-11-13得票数 14

回答已采纳

3回答

每个状态都是终端的强化学习

、

我的问题不是关于强化学习的实施，而是理解当每个状态都是一个终结状态时，RL的概念。如果我们考虑情节性的RL，我觉得这个方法没有意义。事实上，机器人射击并得到回报:每一集都是最后一集。将下一个状态传递给系统是没有意义的，

浏览 0提问于2019-02-25得票数 1

回答已采纳

4回答

监督学习，(ii)无监督学习，(iii)强化学习

、

我是机器学习的新手。在阅读关于监督学习，无监督学习，强化学习的时候，我遇到了一个问题，如下所示，并感到困惑。请帮助我在以下三项中识别出哪一种是监督学习，无监督学习，强化学习。哪种类型的学习(如果有的话)最适合描述以下三种情况： (i)为自动售货机设立硬币分类系统。为此，开发人员从美国造币厂获得准确的硬币规格，并推导出大小、重量和面额的</

浏览 3提问于2013-04-03得票数 5

1回答

用选择的移动反馈来训练分类器，而不是真正的标签。

、

我很难用一句话来描述我想要的东西，这可能就是我在Google上运气不佳的原因。然而，我所拥有的培训数据只是状态，已经采取的行动，以及是否有好的或坏的结果。如果选择的移动是不好

浏览 0提问于2015-07-26得票数 3

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

、、、、

我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？这是我目前在机器学习中所知道的-统计推断可能是近似正确的模型，包括泛化界和模型选择。基本的超平面算法:感知器和Winnow。核粒促进弱学习者向强

浏览 0提问于2017-01-04得票数 9

回答已采纳

1回答

如何应用强化学习？

、

然后，智能体要么选择“探索”，要么选择“利用”，并根据发生的事情修改其知识。我正在试着为俄罗斯方块写一个RL代理，但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我，我会很感激的。谢谢:)

浏览 1提问于2013-11-13得票数 2

1回答

深度强化学习的大动作空间

、

我知道在正常的深度强化学习(DRL)场景中，我们学习了一个深层神经网络来将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的动作数相同，因此我们可以根据相关的Q值选择动作。然而，在本文"基于组合动作空间的深度强化学习预测流行Reddit线程“中，作者使用状态和动作作为输入。网络只输出一个Q值(见下图)。s_t是

浏览 0提问于2019-04-16得票数 6

1回答

基于openai曲线的tensorflow模型的训练

、、、

我正在使用tensorflow实现我的第一个强化深度学习模型，我正在为其实现。import numpy as np import tensorflow a

浏览 2提问于2017-07-02得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

连续动作空间(人形-v2)增强的实现？

当可能发生多个操作时，策略梯度是多少？

具有动作对的强化学习

具有可变动作的强化学习

如何实现深度强化学习（DQN）?

监督学习与离线(批)强化学习

Q-Learning和TD(λ)中的奖励

当某个动作不可执行时，如何减少神经网络输出

OpenAI健身房中的有效动作

确定性策略梯度相对于随机策略梯度的优势是什么？

动作播放频率的直方图

主动学习和强化学习有什么区别？

每个状态都是终端的强化学习

监督学习，(ii)无监督学习，(iii)强化学习

用选择的移动反馈来训练分类器，而不是真正的标签。

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

如何应用强化学习？

深度强化学习的大动作空间

基于openai曲线的tensorflow模型的训练

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐