强化学习 11: Evolution Strategies

杨熹

发布于 2018-12-21 15:01:28

1K0

发布于 2018-12-21 15:01:28

文章被收录于专栏：杨熹的专栏

为什么要用 Evolution Strategies？

我们知道神经网络很强大，如果我们能够找到一组合适的模型参数，我们就可以使用神经网络来解决许多具有挑战性的问题。

深度学习的成功主要来自于它可以使用反向传播算法有效地计算目标函数对每个模型参数上梯度。通过这些梯度，我们可以有效地搜索参数空间，找到一个不错的模型来解决问题。

然而，有很多问题不能使用反向传播算法，

例如在强化学习（RL）中，虽然也可以训练神经网络来做出决策，通过执行一系列 action 来完成环境中的某些任务。

但是却不能有效估计当前时刻的 agent 在未来将获得的 reward 的梯度，

尤其是这个奖励要在未来好多个时间步之后才能实现的时候。

即使我们能够计算出准确的梯度，也存在陷入局部最优的问题，而且陷入局部最优在 RL 中非常常见。

什么是 Evolution Strategies？

OpenAI 发表了一篇论文：Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Evolution Strategies 的数据效率虽然没有 RL 高，但却有许多好处。

因为放弃了梯度计算，所以算法评估起来更有效。
而且可以很容易地将 ES 算法的计算分配给数千台计算机进行并行计算。
并且通过 ES 算法发现的 policy 要比 RL 发现的更多样化。

Rastrigin_function

从图中可以看出这个 Rastrigin 函数有很多局部最优点，

我们可以只取其中的一部分进行讨论说明，

如图所示，分别是 2D Schaffer 和 Rastrigin 函数的 top-down 视图，

schaffer	rastrigin

我们的目标是找到一组模型参数（x，y），使 F（x，y）尽可能接近全局最大值。

evolution strategy 是一个可以为用户评估问题提供一组候选解决方案的算法。

它基于一个目标函数的，输入一个给定的 solution，返回一个适应值 fitness value，
基于当前解决方案的适应值，该算法将产生下一代候选解决方案，产生比当前解决方案更好的结果。
当用户对解决方案满意时，迭代过程停止。
而且我们可以从 ES 获得任意数量的解决方案，因为它是从一个概率分布中采样的， ES 会在每一代更新这个分布的参数。

solver = EvolutionStrategy()

while True:

  # 让 ES 算法提供一个候选集 solutions
  solutions = solver.ask()

  # 建立一个 array 来存 fitness results.
  fitness_list = np.zeros(solver.popsize)

  # 评估每个方案的 fitness 
  for i in range(solver.popsize):
    fitness_list[i] = evaluate(solutions[i])

  # 将 fitness 结果再次给 ES
  solver.tell(fitness_list)

  # 从 ES 得到最好的 parameter, fitness 
  best_solution, best_fitness = solver.result()

  if best_fitness > MY_REQUIRED_FITNESS:
    break

最简单的 Evolution Strategy

最简单的 Evolution Strategy 就是从一个正态分布中采样一个 solution 集合，

平均值为 μ 标准偏差 σ.

开始时 μ 设定一个初始值，然后经过 fitness 的迭代，将 μ 设定为最好的那个，再在这个新的平均值周围采样生成下一代 solution。

schaffer	rastrigin

如图所示，

这个绿色点表示的是每一代的概率分布的平均值，

蓝色点是采样的 solution，

红色点是目前为止由算法产生的最好的 solution。

不过这只是个最简单版本，通常只适用于简单的问题。

它的性质是 greedy，它只保留最佳解决方案，抛弃了此外的所有解决方案，

这个算法在更复杂的问题中很容易陷入局部最优。

学习资料：

http://blog.otoro.net/2017/10/29/visual-evolution-strategies/

Practical Reinforcement Learning

推荐阅读历史技术博文链接汇总

http://www.jianshu.com/p/28f02bb59fe5

也许可以找到你想要的：

入门问题深度学习神经网络自然语言处理

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018.12.01 ，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

神经网络

登录后参与评论

0 条评论

热度