前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >前沿技术 || UC Berkeley开源RAD来改进强化学习算法

前沿技术 || UC Berkeley开源RAD来改进强化学习算法

作者头像
深度强化学习实验室
发布2020-05-13 10:52:45
5940
发布2020-05-13 10:52:45
举报

深度强化学习实验室报道

来源于:UC Berkeley博客

编辑:DeepRL

【导读】从视觉观察中学习是强化学习(RL)中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀,但当前的方法仍在两个方面缺乏:

  • (a)学习的样本效率
  • (b)推广到新环境。

为此,作者提出了RAD(Reinforcement Learning with Augmented Data):使用增强数据进行强化学习,这是一个简单的即插即用模块,可以增强任何RL算法。经过证明,随机裁剪,颜色抖动,色块切除和随机卷积等数据增强可以使简单的RL算法在数据效率,泛化性,通用性,和wall-clock速度。在DeepMind Control Suite上,RAD在15个环境中的数据效率和性能方面都是最先进的。最后,与竞争的RL技术相比,作者提出的定制数据增强模块可实现更快的wall-clock 速度。

方法

在论文中,作者展示了数据增强如何在策略内和策略外提高标准RL算法的性能和泛化能力。同时将数据增强于

  • (i)Soft Actor Critic(SAC)
  • (ii)针对ProcGen环境的PPO。

结果

  • RAD是DM_Control 100k和DM_Control500k基准上大多数(在6个中有5个)广泛基准测试环境中的最先进算法,与CURL,Dreamer,PlaNet,SLAC,SAC + AE和Pixel匹配或优于 SAC。
  • RAD在大多数DeepMind控制算法(15个中的11个)中快速匹配基于状态的性能。对于数据效率,它的性能也与现有技术的现有技术(CURL)相当或更好。
  • 相对于DeepMind控件上的所有其他增强,随机作物独立运行对最终性能的影响最大。我们烧掉6个常见增强的成对排列,并测量沃克的性能,以500k环境步长行走。尽管所有数据增强都有帮助,但仅凭随机裁剪即可获得最高性能。
  • RAD在诸如BigFish和StarPilot的ProcGen环境上实现了最新的测试时间综合。同样,在BigFish环境中,使用随机作物的RAD相对基于像素的PPO可获得55.8%的相对增益。
  • 在BigFish和StarPilot环境中,训练有100个训练级别的RAD优于训练有200个训练级别的基于像素的PPO。这表明,与简单地增加训练环境的数量相比,数据增强在学习可概括表示方面可以更有效。
  • 在需要结构概括(例如适应新的地图布局)的环境中(例如Jumper和CoinRun),随机裁剪会失败。但是,诸如CoinRun之类的环境中的随机卷积和色彩抖动之类的色彩增强仍然可以改善测试时间性能。

为什么如此有效?

初始化及使用

所有依赖项都在conda_env.yml文件中。它们可以手动安装,也可以使用以下命令安装:

代码语言:javascript
复制
conda env create -f conda_env.yml

要从基于图像的观察结果中训练RAD智能体进行大刀阔斧的任务,请从此目录的根目录运行bash script / run.sh。run.sh文件包含以下命令,可以对其进行修改以尝试不同的环境/扩充/超参数。

代码语言:javascript
复制
CUDA_VISIBLE_DEVICES=0 python train.py \
    --domain_name cartpole \
    --task_name swingup \
    --encoder_type pixel --work_dir ./tmp/cartpole \
    --action_repeat 8 --num_eval_episodes 10 \
    --pre_transform_image_size 100 --image_size 84 \
    --agent rad_sac --frame_stack 3 --data_augs flip  \
    --seed 23 --critic_lr 1e-3 --actor_lr 1e-3 --eval_freq 10000 --batch_size 128 --num_train_steps 200000 &

【HomePage】https://mishalaskin.github.io/rad/

【Arxiv】 https://arxiv.org/pdf/2004.14990.pdf

【Github】 https://github.com/MishaLaskin/rad

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度强化学习实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 初始化及使用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档