在DQN中，为什么计算y_i而不存储？

在DQN（Deep Q-Network）中，计算y_i而不存储是为了解决强化学习中的样本相关性和非稳定性问题。

样本相关性指的是在强化学习中，连续的样本之间往往存在高度相关性，这会导致训练过程中的样本分布不稳定，使得网络难以收敛。如果直接存储并使用连续的样本进行训练，会导致训练过程中的样本分布不平衡，一些样本可能会被过度训练，而其他样本则被忽略。

为了解决样本相关性问题，DQN采用了经验回放（Experience Replay）的方法。经验回放是将智能体与环境交互的经验存储在一个经验池中，然后从中随机抽取一批样本进行训练。通过随机抽样，可以打破样本之间的相关性，使得训练过程更加稳定。

另外，DQN还引入了目标网络（Target Network）来解决非稳定性问题。目标网络是一个与主网络（Q网络）结构相同的网络，但参数更新频率较低。在计算y_i时，使用目标网络来计算目标Q值，而不是直接使用当前的Q网络。这样可以减少目标Q值的波动，提高训练的稳定性。

总结起来，DQN中计算y_i而不存储是为了解决样本相关性和非稳定性问题。通过经验回放和目标网络的引入，可以提高训练的稳定性和效果。

腾讯云相关产品和产品介绍链接地址：

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云