强化学习 10: 实践中的一些技巧

在实践中有时候为了达到更好的效果需要用一些技巧。

Practical Reinforcement Learning

1. 我们知道在交叉熵方法中,例如进行一百次实验,那么只需要选择其中最好的25次。这样的采样其实是效率很低的。

所以可以用一些小窍门来让它执行得更高效一些。例如可以重新利用一下过去的3到5次迭代中的样本,即不需要每次都采样几百次几千次,也许可以只采样20次,然后剩下的80次是利用之前的样本。

2. 交叉熵方法还有一个问题是,有些时候会陷入局部最优的情况。例如有一些神经网络结构会导致它产生梯度爆炸,那么 agent 就很大可能不会遇见零概率的情况。

在强化学习中这个问题是很糟糕的,因为如果没有概率为零的 action,就意味着 agent 会错过某些 action 和 state,因为从来没有采取过这个 action,就可能导致遇见的只是一个局部最优解,真正的最优解还没有机会遇见。有一种最简单的解决方法是对熵做正规化。

3. 对于交叉熵方法,很容易应用并行算法。例如我们要对视频游戏采样1000次,就可以并行地进行采样。

4. 还有一个情况是,如果我们不想仅仅依赖于当前的观察,可以用一些神经网络结构来记忆存储,存储前面的一些有用的信息,这个会在后面学习。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

高精准预测—人工神经网络

我就在这里等你关注,不离不弃 ——A·May R-46T-56 ? 「序 言 」 前几天学习了R中的KNN近邻分类预测的做法,KNN近邻分析法可以说是最基础的、...

2146
来自专栏marsggbo

DeepLearning.ai学习笔记(三)结构化机器学习项目--week2机器学习策略(2)

一、进行误差分析 很多时候我们发现训练出来的模型有误差后,就会一股脑的想着法子去减少误差。想法固然好,但是有点headlong~ 这节视频中吴大大介绍了一个...

2036
来自专栏磐创AI技术团队的专栏

深度学习中的正则化技术概述(附Python+keras实现代码)

1971
来自专栏ATYUN订阅号

如何处理机器学习中类的不平衡问题

不平衡类使机器学习的“准确性”受到破坏。这在机器学习(特别是分类)中是一个非常普遍的问题,在每个类中都有一个不成比例的数据集。标准的准确性不再可靠地度量性能,这...

3378
来自专栏Fish

Andrew Ng的机器学习课程概述(三)

第十三章 无监督学习 首先讲的K-mean聚类原理还是挺简单的。就是你要分K个类,你就选择K个点做中心点,然后让所有的点进行计算,离哪个点最近,就选择成为这个点...

1908
来自专栏机器学习算法与Python学习

秘籍 | 数据竞赛大杀器之模型融合(stacking & blending)

叠(也称为元组合)是用于组合来自多个预测模型的信息以生成新模型的模型组合技术。通常,堆叠模型(也称为二级模型)因为它的平滑性和突出每个基本模型在其中执行得最好的...

1193
来自专栏量子位

我搭的神经网络不work该怎么办!看看这11条新手最容易犯的错误

王瀚宸 王小新 编译自 TheOrangeDuck 量子位 出品 | 公众号 QbitAI ? 每个人在调试神经网络的时候,大概都遇到过这样一个时刻: 什么鬼!...

3699
来自专栏新智元

【谷歌大脑迁移学习】减少调参,直接在数据集中学习最佳图像架构

【新智元导读】 本论文中,作者研究了如何从数据中直接学习卷积架构,并将这些架构应用到ImageNet的分类任务上。这种架构在ImageNet的 top-1任务上...

3547
来自专栏CVer

[计算机视觉论文速递] 2018-04-17

[1]《Towards Improved Cartoon Face Detection and Recognition Systems》

1392
来自专栏专知

【明星自动大变脸,嬉笑怒骂加变性】最新StarGAN对抗生成网络实现多领域图像变换(附代码)

【导读】图像之间的风格迁移和翻译是近年来最受关注的人工智能研究方向之一,这个任务在具有趣味性的同时也是很有挑战的。相关的研究成果也层出不穷,有的甚至引起了全世界...

4689

扫码关注云+社区

领取腾讯云代金券