我们知道神经网络很强大,如果我们能够找到一组合适的模型参数,我们就可以使用神经网络来解决许多具有挑战性的问题。
深度学习的成功主要来自于它可以使用反向传播算法有效地计算目标函数对每个模型参数上梯度。通过这些梯度,我们可以有效地搜索参数空间,找到一个不错的模型来解决问题。
然而,有很多问题不能使用反向传播算法,
例如在强化学习(RL)中,虽然也可以训练神经网络来做出决策,通过执行一系列 action 来完成环境中的某些任务。
但是却不能有效估计当前时刻的 agent 在未来将获得的 reward 的梯度,
尤其是这个奖励要在未来好多个时间步之后才能实现的时候。
即使我们能够计算出准确的梯度,也存在陷入局部最优的问题,而且陷入局部最优在 RL 中非常常见。
OpenAI 发表了一篇论文:Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Evolution Strategies 的数据效率虽然没有 RL 高,但却有许多好处。
Rastrigin_function
从图中可以看出这个 Rastrigin 函数有很多局部最优点,
我们可以只取其中的一部分进行讨论说明,
如图所示,分别是 2D Schaffer 和 Rastrigin 函数的 top-down 视图,
schaffer | rastrigin |
---|---|
| |
我们的目标是找到一组模型参数(x,y),使 F(x,y)尽可能接近全局最大值。
evolution strategy 是一个可以为用户评估问题提供一组候选解决方案的算法。
solver = EvolutionStrategy()
while True:
# 让 ES 算法提供一个候选集 solutions
solutions = solver.ask()
# 建立一个 array 来存 fitness results.
fitness_list = np.zeros(solver.popsize)
# 评估每个方案的 fitness
for i in range(solver.popsize):
fitness_list[i] = evaluate(solutions[i])
# 将 fitness 结果再次给 ES
solver.tell(fitness_list)
# 从 ES 得到最好的 parameter, fitness
best_solution, best_fitness = solver.result()
if best_fitness > MY_REQUIRED_FITNESS:
break
最简单的 Evolution Strategy 就是从一个正态分布中采样一个 solution 集合,
平均值为 μ 标准偏差 σ.
开始时 μ 设定一个初始值,然后经过 fitness 的迭代,将 μ 设定为最好的那个,再在这个新的平均值周围采样生成下一代 solution。
schaffer | rastrigin |
---|---|
| |
如图所示,
这个绿色点表示的是每一代的概率分布的平均值,
蓝色点是采样的 solution,
红色点是目前为止由算法产生的最好的 solution。
不过这只是个最简单版本,通常只适用于简单的问题。
它的性质是 greedy,它只保留最佳解决方案,抛弃了此外的所有解决方案,
这个算法在更复杂的问题中很容易陷入局部最优。
学习资料:
http://blog.otoro.net/2017/10/29/visual-evolution-strategies/
Practical Reinforcement Learning
推荐阅读 历史技术博文链接汇总
http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的:
入门问题深度学习神经网络自然语言处理