我知道在正常的深度强化学习(DRL)场景中,我们学习了一个深层神经网络来将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的动作数相同,因此我们可以根据相关的Q值选择动作。然而,在本文"基于组合动作空间的深度强化学习预测流行Reddit线程“中,作者使用状态和动作作为输入。网络只输出一个Q值(见下图)。Q_t只是Q at time t for action i。我想知道为什么只学到
我通过把它应用到一个现实世界的问题上来学习深度Q-学习。我已经浏览了一些在线教程和论文,但我无法为下面的问题陈述找到解决方案。
假设我们在每种状态下都有N可能的操作可供选择。为了用这个经验(s, a, r, s^\prime)来更新神经网络,我们所拥有的唯一的地面真值q-值是行动a_i。换句话说,对于所有其他可能的操作(a_j, j=1\dots N, j\neq i),我们没有任何基本真理q值。那么,我们应该如何将训练数据样本提供给神经网络呢?通过神经网络将其他<em