强化学习 10: 实践中的一些技巧

杨熹

发布于 2018-12-19 16:25:06

4070

发布于 2018-12-19 16:25:06

在实践中有时候为了达到更好的效果需要用一些技巧。

Practical Reinforcement Learning

1. 我们知道在交叉熵方法中，例如进行一百次实验，那么只需要选择其中最好的25次。这样的采样其实是效率很低的。

所以可以用一些小窍门来让它执行得更高效一些。例如可以重新利用一下过去的3到5次迭代中的样本，即不需要每次都采样几百次几千次，也许可以只采样20次，然后剩下的80次是利用之前的样本。

2. 交叉熵方法还有一个问题是，有些时候会陷入局部最优的情况。例如有一些神经网络结构会导致它产生梯度爆炸，那么 agent 就很大可能不会遇见零概率的情况。

在强化学习中这个问题是很糟糕的，因为如果没有概率为零的 action，就意味着 agent 会错过某些 action 和 state，因为从来没有采取过这个 action，就可能导致遇见的只是一个局部最优解，真正的最优解还没有机会遇见。有一种最简单的解决方法是对熵做正规化。

3. 对于交叉熵方法，很容易应用并行算法。例如我们要对视频游戏采样1000次，就可以并行地进行采样。

4. 还有一个情况是，如果我们不想仅仅依赖于当前的观察，可以用一些神经网络结构来记忆存储，存储前面的一些有用的信息，这个会在后面学习。

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2018.11.27 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度