强化学习 12 - 什么是 DQN

杨熹

发布于 2018-12-27 17:29:05

1.4K0

前面我们有一篇文章介绍了 q learning，也用 Deep Q Network 做了一个小游戏，但是还没有详细的讲DQN的理论，今天我们就来看一下它的概念。

当状态空间比较小的情况下用 q learning 还是可以的，但是在复杂的情况下，例如一个视频游戏，它的状态空间非常大，如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。这个时候我们就想不是直接的用迭代的方式去计算扣只，而是找到一个最优的 q 函数。找这个最优的q函数的方法就是用神经网络。我们用一个深度神经网络来为每一组状态行为估计它们的 q 值，进而近似的估计出最优的 q 函数。将 Q learning 和深度神经网络相结合就是 DQN

例如我们有一个深度神经网络，它的输入是给定环境下的状态，它的输出是这个状态时可以采取的每个行动的 q 值。这个网络的目标是估计出最优Q函数，而且这个函数还要满足 bellman equation ，网络的损失函数是，比较输出的 q 值和方程右边的目标 q 值的差距，然后用优化算法使这个损失越来越小。

在 q learning 中是用 bellman equation 来计算和更新Q的，在神经网络中也是用 bellman equation 估计 q 值来找到最佳Q函数，