首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >具有可变动作的强化学习

具有可变动作的强化学习
EN

Stack Overflow用户
提问于 2011-03-07 12:34:09
回答 3查看 2.1K关注 0票数 14

我读到的所有reinforcement learning算法通常都应用于具有固定数量的操作的单个代理。有没有什么强化学习算法可以在考虑可变数量的动作的情况下做出决策?例如,如何在计算机游戏中应用RL算法,其中玩家控制N个士兵,每个士兵根据其条件有随机数量的动作?你不能为全局决策者(即“将军”)制定固定数量的行动,因为随着士兵的创建和死亡,可用的行动不断变化。你不能在士兵层面上制定一个固定数量的行动,因为士兵的行动是有条件的,基于它所处的环境。如果一个士兵没有看到对手,那么它可能只能行走,而如果它看到10个对手,那么它就有10个新的可能动作,攻击10个对手中的1个。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-07-29 05:46:12

你所描述的并没有什么不寻常的。强化学习是一种寻找Markov Decision Process的价值函数的方法。在MDP中,每个状态都有自己的一组操作。要继续使用强化学习应用程序,您必须清楚地定义问题中的状态、操作和奖励。

票数 4
EN

Stack Overflow用户

发布于 2011-03-07 19:15:28

如果每个士兵都有许多可用或不可用的操作,这取决于某些条件,那么您仍然可以将其建模为从一组固定的操作中进行选择。例如:

  • 为每个士兵的全套操作中的每个操作创建一个“效用值”
  • 选择价值最高的操作,忽略在给定时间不可用的那些操作

如果您有多个可能的目标,那么同样的原则也适用,除了这一次您对您的效用函数进行建模,将目标指定作为附加参数,并多次运行评估函数(每个目标一个)。您选择具有最高“攻击效用”的目标。

票数 1
EN

Stack Overflow用户

发布于 2020-05-07 15:00:33

在连续的域动作空间中,策略NN通常输出均值和/或方差,然后您可以从中采样动作,假设它遵循一定的分布。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5215856

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档