版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Solo95/article/details/102751088
非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上就是随机和贪心相结合。
实际上这个策略在论文里一般一句话就可以概括:ϵ\epsilonϵ-greedy policy that selects a random action with probability ϵ\epsilonϵ(不准确) or otherwise follows the greedy policy a=argmaxaQπ(s,a)a = \mathop{argmax}\limits_{a}Q^\pi(s,a)a=aargmaxQπ(s,a)
这是一个非常简单的策略,但好的地方在它够用了。
下面是它有效的证明。
GLIE的定义