我正在为空间入侵者游戏的学习者调整一个深度学习模型(下图)。状态定义为玩家与敌人之间的相对核距离+玩家与6种最近的激光之间的相对距离(如果玩家的位置为(x_p,y_p),敌人的位置为(x_e,y_e),则相对欧几里德距离为
而高度是窗口的高度)。因此,观测空间维数是(10+6),这导致了我的深层神经网络16个单元的输入。

我的代理人似乎没有学习(奖励函数没有增加),我想我应该检查平均值Q值,这是我主要的深层神经网络的输出,并且,我没有增加,而是说平均Q值稳定(如下图所示)而不是增加。我修改了许多调整参数(批次大小,神经网络结构和参数.)但我还是有同样的问题。你知道为什么平均Q值不会增加吗?

以下是关于学习者的一些结果:

发布于 2020-08-19 21:35:26
我认为您的主要问题是使用相对距离作为核心功能。它有两个主要弱点:
您可以改进的一个方法是为每个项目添加一个速度分量,显示它从玩家身边或后退的速度有多快。这可能有点帮助,但我的感觉是,你需要更多的数据,而不是距离和速度。
我认为你应该使用标准化的x, y位置作为每一个被跟踪项目的特征,再加上任何可以改变方向的物体的归一化速度dx, dy (如果敌人的激光总是直线下降,你可能不需要任何东西)。
此外:
https://datascience.stackexchange.com/questions/80417
复制相似问题