我读到的所有reinforcement learning算法通常都应用于具有固定数量的操作的单个代理。有没有什么强化学习算法可以在考虑可变数量的动作的情况下做出决策?例如,如何在计算机游戏中应用RL算法,其中玩家控制N个士兵,每个士兵根据其条件有随机数量的动作?你不能为全局决策者(即“将军”)制定固定数量的行动,因为随着士兵的创建和死亡,可用的行动不断变化。你不能在士兵层面上制定一个固定数量的行动,因为士兵的行动是有条件的,基于它所处的环境。如果一个士兵没有看到对手,那么它可能只能行走,而如果它看到10个对手,那么它就有10个新的可能动作,攻击10个对手中的1个。
发布于 2011-07-29 05:46:12
你所描述的并没有什么不寻常的。强化学习是一种寻找Markov Decision Process的价值函数的方法。在MDP中,每个状态都有自己的一组操作。要继续使用强化学习应用程序,您必须清楚地定义问题中的状态、操作和奖励。
发布于 2011-03-07 19:15:28
如果每个士兵都有许多可用或不可用的操作,这取决于某些条件,那么您仍然可以将其建模为从一组固定的操作中进行选择。例如:
如果您有多个可能的目标,那么同样的原则也适用,除了这一次您对您的效用函数进行建模,将目标指定作为附加参数,并多次运行评估函数(每个目标一个)。您选择具有最高“攻击效用”的目标。
发布于 2020-05-07 15:00:33
在连续的域动作空间中,策略NN通常输出均值和/或方差,然后您可以从中采样动作,假设它遵循一定的分布。
https://stackoverflow.com/questions/5215856
复制相似问题